Próbuję zrozumieć różnicę między ograniczoną maszyną Boltzmanna (RBM), a dodatnią siecią neuronową (NN). Wiem, że RBM jest modelem generatywnym, w którym chodzi o rekonstrukcję danych wejściowych, podczas gdy NN jest modelem dyskryminacyjnym, gdzie ideą jest przewidywanie etykiety. Ale nie mam pojęcia, dlaczego nie można po prostu użyć NN do modelu generatywnego? W szczególności myślę o głębokich sieciach przekonań i wielowarstwowych perceptronach.Dlaczego warto używać ograniczonego urządzenia Boltzmanna, a nie perceptronu wielowarstwowego?
Załóżmy, że moje wejście do NN jest zbiorem notatek zwanych x, a moje wyjście NN jest zbiorem węzłów y. W modelu dyskryminacyjnym, moja strata podczas treningu byłaby różnicą pomiędzy y, a wartością y, którą chcę, aby x tworzył (np. Prawdopodobieństwa gruntowych prawd dla etykiet klasowych). Ale co z tym, że po prostu sprawiłem, że dane wyjściowe mają tę samą liczbę węzłów, co dane wejściowe, a następnie ustawię stratę jako różnicę między X i Y? W ten sposób sieć nauczy się rekonstruować dane wejściowe, jak w KMS.
A zatem, biorąc pod uwagę, że NN (lub perceptron wielowarstwowy) może być użyty do szkolenia modelu generatywnego w ten sposób, dlaczego użyłbyś zamiast tego RBM (lub głębokiej sieci przekonań)? Czy w tym przypadku byłyby dokładnie takie same?
Dzięki. Tak więc w przypadku autoencodera w porównaniu z RBM, czy istnieje jakaś intuicja odnośnie tego, dlaczego RBM wydaje się być bardziej skuteczny? – Karnivaurus
nie ma czegoś takiego jak "BP przez czas" w DBN. BPTT jest dla powtarzających się sieci, a nie "jakiejkolwiek" głębokiej architektury. – lejlot
@Karnivaurus: Nie mam wystarczającego doświadczenia z tymi (autoencoder vs RBM), aby doradzić kiedy używać, które, przepraszam. – m7thon