Znalazłem to poprzednie pytanie na SO: N-grams: Explanation + 2 applications. PO dał ten przykład i zapytał, czy to była słuszna:Czym dokładnie jest n Gram?
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
Ktoś w sekcji odpowiedzi potwierdziły to było poprawne, ale niestety jestem trochę zagubiony poza tym jak nie w pełni zrozumieć wszystko inne, co było powiedziany! Używam LingPipe i postępuję zgodnie z samouczkiem, w którym stwierdziłem, że powinienem wybrać wartość od 7 do 12 - ale bez podania przyczyny.
Co to jest dobra wartość nGram i jak powinienem wziąć to pod uwagę przy użyciu narzędzia takiego jak LingPipe?
Edit: To był poradnik: http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
Więc mniejsza Ngram, tym więcej porównania dokonane i dokładniejsza analiza? Próbuję zrozumieć, dlaczego w tym samouczku zasugerowano numer od 7 do 12. – user2649614
Czy w związku z analizą nastrojów na tweetach powinienem wybrać numer? Tylko szczęście? – user2649614
Domyślam się, że najłatwiejszym sposobem znalezienia najlepszej liczby jest eksperymentowanie. Jako przykład możesz podzielić dane treningowe na dwie połówki, ćwiczyć w pierwszej połowie, a następnie użyć liczby, która daje najlepsze wyniki z drugą. Lub spróbuj liści herbaty! – zoul