Mam trudny czas konceptualizacji różnicy między stateful i stateless LSTMs w Keras. Rozumiem, że na końcu każdej partii "stan sieci został zresetowany" w przypadku bezstanowym, podczas gdy dla przypadku stanowego stan sieci jest zachowywany dla każdej partii, a następnie musi zostać ręcznie zresetowany koniec każdej epoki.Keras - stateful vs stateless LSTMs
Moje pytania są następujące: 1. W przypadku bezpaństwowców, w jaki sposób sieć się uczy, jeżeli państwo nie jest zachowane pomiędzy partiami? 2. Kiedy można użyć trybu bezpaństwowego vs stanowego LSTM?
Odnośnie uwagi na temat tego, co @ vu.pham powiedział ... Jeśli LSTM jest "stanowy", informacje o poprzednich partiach są przechowywane w ukrytych stanach, więc aktualizacje na partia 2 powinny zależeć od partii 1, czyż nie? ? (to jest uważane za skrócone BPTT waniliowego RNN, myślę, że tam backprop używa tylko kilku kroków czasowych, ale RNN może nadal uczyć się długich zależności, dłużej niż długość sekwencji, na której są obliczane gradienty) –