Pytanie jest proste. Który z pominiętych pasków CBOW & działa lepiej dla dużego zestawu danych? (A odpowiedź na małym zbiorze następująco.)word2vec: Zestaw danych szkolenia CBOW i skip-gram wydajność szkolenia rozmiar
jestem zdezorientowany, ponieważ sam Mikolov, [Link]
skip-gram: dobrze współpracuje z małej ilości danych treningowych reprezentuje dobrze nawet rzadkie słowa lub zwroty.
CBOW: kilka razy szybciej trenować niż skip-gram, nieco lepszej dokładności częstych słów
ale według Google TensorFlow, [Link]
CBOW wygładza nad losem informacje o dystrybucji (traktując cały kontekst jako jedną obserwację). W większości przypadków okazuje się to przydatne w przypadku mniejszych zestawów danych.
Jednakże, skok-gram traktuje każdą parę kontekstu-celu jako nową obserwację, a to ma tendencję do czynienia lepiej, gdy mamy większe zbiory danych większych zestawów danych. Skoncentrujemy się na modelu skip-gram w dalszej części tego samouczka.
Oto post Quora który wspiera pierwsza myśl [Link], a potem jest drugi po Quora co sugeruje namysłu [Link] --both wydają pochodzących z wyżej wymienionych źródeł wiarygodnych.
Albo jest to jak co Mikolov powiedział:
Ogólnie rzecz biorąc, najlepszym rozwiązaniem jest, aby spróbować kilka eksperymentów i zobaczyć, co działa najlepiej dla Ciebie, jak różne aplikacje mają różne wymagania.
Ale na pewno jest werdykt empiryczny lub analityczny lub ostatnie zdanie w tej sprawie?