Dla porównania, hard sigmoid function
mogą być określone inaczej w różnych miejscach. W Courbariaux i in. 2016 [1], jest zdefiniowana jako:
σ jest funkcja „twarde esicy”: σ (x) = zacisk ((X + 1)/2, 0, 1) = max (0, min (1 (x + 1)/2))
Chodzi o to, aby zapewnić wartość prawdopodobieństwa (stąd ograniczające to być między 0
i 1
) do stosowania w stochastycznego binaryzacji nerwowych parametrów sieci (na przykład waga, aktywacja , gradient). Użyto prawdopodobieństwa p = σ(x)
zwróconego z funkcji esowatej twardej, aby ustawić parametr x
na +1
z prawdopodobieństwem -1
lub z prawdopodobieństwem .
[1] https://arxiv.org/abs/1602.02830 - "binarnym Neural Networks: Szkolenie Głębokie Neural Networks z obciążnikami i aktywacji ograniczona do +1 lub -1" Matthieu Courbariaux Itay Hubara Daniel Soudry Ran El-Yaniv, Yoshua Bengio (Wprowadzone w dniu 9 lutego 2016 (v1) ostatniej aktualizacji 17 Mar 2016 (tej wersji, V3))
jest max (0, min (1 (x + 1)/2)) –