Odpowiedz

4

Można to zrobić. Ale miłą cechą batchnorm, oprócz stabilizacji dystrybucji aktywacji, jest to, że średnia i std odchylenie prawdopodobnie migrują, jak uczy się sieć.

Skutecznie ustawiania batchnorm tuż po nałożeniu warstwy wejściowy jest fantazyjne dane wstępne przetwarzanie kroku. Pomaga, czasem dużo (np. W regresji liniowej). Ale łatwiej i wydajniej jest obliczyć średnią i wariancję całej próbki treningowej tylko raz, niż uczyć się tego pojedynczo. Pamiętaj, że batchnorm nie jest darmowy pod względem wydajności i nie powinieneś go nadużywać.

Powiązane problemy