word2vec: Zestaw danych szkolenia CBOW i skip-gram wydajność szkolenia rozmiar

Pytanie jest proste. Który z pominiętych pasków CBOW & działa lepiej dla dużego zestawu danych? (A odpowiedź na małym zbiorze następująco.)word2vec: Zestaw danych szkolenia CBOW i skip-gram wydajność szkolenia rozmiar

jestem zdezorientowany, ponieważ sam Mikolov, [Link]

skip-gram: dobrze współpracuje z małej ilości danych treningowych reprezentuje dobrze nawet rzadkie słowa lub zwroty.

CBOW: kilka razy szybciej trenować niż skip-gram, nieco lepszej dokładności częstych słów

ale według Google TensorFlow, [Link]

CBOW wygładza nad losem informacje o dystrybucji (traktując cały kontekst jako jedną obserwację). W większości przypadków okazuje się to przydatne w przypadku mniejszych zestawów danych.

Jednakże, skok-gram traktuje każdą parę kontekstu-celu jako nową obserwację, a to ma tendencję do czynienia lepiej, gdy mamy większe zbiory danych większych zestawów danych. Skoncentrujemy się na modelu skip-gram w dalszej części tego samouczka.

Oto post Quora który wspiera pierwsza myśl [Link], a potem jest drugi po Quora co sugeruje namysłu [Link] --both wydają pochodzących z wyżej wymienionych źródeł wiarygodnych.

Albo jest to jak co Mikolov powiedział:

Ogólnie rzecz biorąc, najlepszym rozwiązaniem jest, aby spróbować kilka eksperymentów i zobaczyć, co działa najlepiej dla Ciebie, jak różne aplikacje mają różne wymagania.

Ale na pewno jest werdykt empiryczny lub analityczny lub ostatnie zdanie w tej sprawie?

Źródło

2016-08-30 Sean

Gdy Mikolov oznaczał, że CBOW działa dobrze dla większych zbiorów danych i SG dla mniejszego zestawu danych, przypuszczam, że ilość danych jest brana pod uwagę. Ponieważ CBOW bierze pod uwagę jedno słowo docelowe i wiele słów kontekstowych, potrzebuje większego zestawu danych do szkolenia dla wektorów docelowych w porównaniu do zestawów danych używanych w SG. Podobnie jak na odwrót, w SG ze względu na wiele słów docelowych dla pojedynczego słowa kontekstowego, potrzebuje mniejszych zestawów danych.

Google Tensor Flow mówi o rozmieszczeniu słów w zbiorze danych do generowania wektorów o wysokiej jakości, a nie o ilości użytego zestawu danych. Ponieważ model CBOW rozważa więcej niż te same słowa kontekstowe dla wszystkich słów docelowych w zdaniu, potrzebny jest większy (rozproszony) zbiór danych i na odwrót dla SG.

Podobnie, obie oznaczają to samo:

modelu CBOW = zbiór danych z krótkich zdań, ale dużej liczby próbek (większy zbioru danych)
modelu SG = zbiorze z długich zdań i małą liczbę próbek (mniejszy zbiór danych)

Źródło

2016-11-09 12:31:00 yazhi

word2vec: Zestaw danych szkolenia CBOW i skip-gram wydajność szkolenia rozmiar

Odpowiedz

Powiązane problemy