Dlaczego warto używać ograniczonego urządzenia Boltzmanna, a nie perceptronu wielowarstwowego?

Próbuję zrozumieć różnicę między ograniczoną maszyną Boltzmanna (RBM), a dodatnią siecią neuronową (NN). Wiem, że RBM jest modelem generatywnym, w którym chodzi o rekonstrukcję danych wejściowych, podczas gdy NN jest modelem dyskryminacyjnym, gdzie ideą jest przewidywanie etykiety. Ale nie mam pojęcia, dlaczego nie można po prostu użyć NN do modelu generatywnego? W szczególności myślę o głębokich sieciach przekonań i wielowarstwowych perceptronach.Dlaczego warto używać ograniczonego urządzenia Boltzmanna, a nie perceptronu wielowarstwowego?

Załóżmy, że moje wejście do NN jest zbiorem notatek zwanych x, a moje wyjście NN jest zbiorem węzłów y. W modelu dyskryminacyjnym, moja strata podczas treningu byłaby różnicą pomiędzy y, a wartością y, którą chcę, aby x tworzył (np. Prawdopodobieństwa gruntowych prawd dla etykiet klasowych). Ale co z tym, że po prostu sprawiłem, że dane wyjściowe mają tę samą liczbę węzłów, co dane wejściowe, a następnie ustawię stratę jako różnicę między X i Y? W ten sposób sieć nauczy się rekonstruować dane wejściowe, jak w KMS.

A zatem, biorąc pod uwagę, że NN (lub perceptron wielowarstwowy) może być użyty do szkolenia modelu generatywnego w ten sposób, dlaczego użyłbyś zamiast tego RBM (lub głębokiej sieci przekonań)? Czy w tym przypadku byłyby dokładnie takie same?

Źródło

2015-08-07 Karnivaurus

Możesz może użyć NN dla modelu generatywnego w dokładnie taki sposób, jak opisujesz. Jest to znane jako autoencoder i może działać całkiem dobrze. W rzeczywistości są to często budulce głębokich sieci przekonań.

RBM to zupełnie inny model z zasilającej sieci neuronowej. Mają połączenia działające w obie strony (do przodu i do tyłu), które mają interpretację probabilistyczną/energetyczną. Aby to zrozumieć, musisz przeczytać szczegóły.

Głęboka sieć przekonań (DBN) to po prostu sieć neuronowa z wieloma warstwami. Może to być duża wartość NN z warstwami składającymi się z rodzaju autododerów lub składającymi się ze skumulowanych KMS. Potrzebujesz specjalnych metod, sztuczek i mnóstwa danych do szkolenia tych głębokich i dużych sieci. Prosta propagacja wsteczna cierpi z powodu problemu vanishing gradients. Ale jeśli uda ci się je wyszkolić, mogą być bardzo potężne (zakodować koncepcje "wyższego poziomu").

Mam nadzieję, że to pomoże wskazać Ci właściwy kierunek.

Źródło

2015-08-07 01:33:10 m7thon

Dzięki. Tak więc w przypadku autoencodera w porównaniu z RBM, czy istnieje jakaś intuicja odnośnie tego, dlaczego RBM wydaje się być bardziej skuteczny? – Karnivaurus

nie ma czegoś takiego jak "BP przez czas" w DBN. BPTT jest dla powtarzających się sieci, a nie "jakiejkolwiek" głębokiej architektury. – lejlot

@Karnivaurus: Nie mam wystarczającego doświadczenia z tymi (autoencoder vs RBM), aby doradzić kiedy używać, które, przepraszam. – m7thon

Dlaczego warto używać ograniczonego urządzenia Boltzmanna, a nie perceptronu wielowarstwowego?

Odpowiedz

Powiązane problemy