Jak zaimplementować pochodną Softmax niezależnie od funkcji straty?

Dla biblioteki sieci neuronowych zaimplementowałem kilka funkcji aktywacyjnych i funkcji strat oraz ich pochodne. Można je łączyć dowolnie, a pochodna na warstwach wyjściowych staje się po prostu produktem pochodnej straty i pochodnej aktywacyjnej.Jak zaimplementować pochodną Softmax niezależnie od funkcji straty?

Jednak nie udało mi się wprowadzić pochodnej funkcji aktywacji Softmax niezależnie od funkcji straty. Ze względu na normalizację, tj. Mianownik w równaniu, zmiana pojedynczej aktywacji wejściowej zmienia wszystkie aktywacje wyjścia, a nie tylko jedną.

Oto moja implementacja Softmax, w której pochodna nie przejdzie sprawdzania gradientu o około 1%. Jak mogę zaimplementować pochodną Softmax, aby można ją było połączyć z jakąkolwiek funkcją straty?

import numpy as np 


class Softmax: 

    def compute(self, incoming): 
     exps = np.exp(incoming) 
     return exps/exps.sum() 

    def delta(self, incoming, outgoing): 
     exps = np.exp(incoming) 
     others = exps.sum() - exps 
     return 1/(2 + exps/others + others/exps) 


activation = Softmax() 
cost = SquaredError() 

outgoing = activation.compute(incoming) 
delta_output_layer = activation.delta(incoming) * cost.delta(outgoing)

Źródło

2015-11-05 danijar

Matematycznie pochodną SOFTmax (XI), w odniesieniu do XJ:

gdzie czerwony delta delta Kronecker.

Jeśli realizować iteracyjnie:

def softmax_grad(s): 
    # input s is softmax value of the original input x. Its shape is (1,n) 
    # e.i. s = np.array([0.3,0.7]), x = np.array([0,1]) 

    # make the matrix whose size is n^2. 
    jacobian_m = np.diag(s) 

    for i in range(len(jacobian_m)): 
     for j in range(len(jacobian_m)): 
      if i == j: 
       jacobian_m[i][j] = s[i] * (1-s[i]) 
      else: 
       jacobian_m[i][j] = -s[i]*s[j] 
    return jacobian_m

Test:

In [95]: x 
Out[95]: array([1, 2]) 

In [96]: softmax(x) 
Out[96]: array([ 0.26894142, 0.73105858]) 

In [97]: softmax_grad(softmax(x)) 
Out[97]: 
array([[ 0.19661193, -0.19661193], 
     [-0.19661193, 0.19661193]])

W przypadku zastosowania w vectorized wersji:

soft_max = softmax(x)  

# reshape softmax to 2d so np.dot gives matrix multiplication 

def softmax_grad(softmax): 
    s = softmax.reshape(-1,1) 
    return np.diagflat(s) - np.dot(s, s.T) 

softmax_grad(soft_max) 

#array([[ 0.19661193, -0.19661193], 
#  [-0.19661193, 0.19661193]])

Źródło

2017-09-03 21:34:55 Aaron

dla jacobian_m [i] [j] = s [i] * (1-s [i]) Wystąpił błąd TypeError: obiekt 'numpy.float64' nie obsługuje przypisania pozycji w jaki sposób poprawisz to dla numpy matrycy wejściowej ? –

To powinno być tak: (x jest wejściem do Softmax warstwy i dy jest delta pochodzących z utratą nad nim)

dx = y * dy 
    s = dx.sum(axis=dx.ndim - 1, keepdims=True) 
    dx -= y * s 

    return dx

ale sposób obliczyć błąd powinno być :

yact = activation.compute(x) 
    ycost = cost.compute(yact) 
    dsoftmax = activation.delta(x, cost.delta(yact, ycost, ytrue))

Objaśnienie: Ponieważ funkcja delta jest częścią algorytmu wstecznej propagacji błędów, jego zadaniem jest pomnożyć wektor dy (w moim kod, outgoing w twoim przypadku) przez funkcję Jakobian z compute(x) ocenioną na x. Jeśli odkryjesz, jak wygląda ten Jacobian dla softmax [1], a następnie mnożysz go od lewej przez wektor dy, po odrobinie algebry przekonasz się, że dostajesz coś, co odpowiada mojemu kodowi Pythona.

[1] https://stats.stackexchange.com/questions/79454/softmax-layer-in-a-neural-network

Źródło

2015-11-07 08:15:30 ticcky

Dzięki za odpowiedź. O czym mówisz przez 'res'? – danijar

Miałem na myśli dx (ręcznie korygowałem kod dla tej odpowiedzi i zapomniałem o tym kodzie occurence =)). Naprawiłem to w odpowiedzi. – ticcky

Twoje rozwiązanie działa dobrze dla mnie. Kontrole gradientowe minęły. Czy z ciekawości mógłbyś krótko wyjaśnić, jak wymyśliłeś formułę? Naprawdę chciałbym to zrozumieć. – danijar

Jak zaimplementować pochodną Softmax niezależnie od funkcji straty?

Odpowiedz

Powiązane problemy