2013-07-24 8 views
5

Google twierdzi, że do określenia popularnych słów kluczowych można użyć "algorytmu wektorowego". Badałem http://en.wikipedia.org/wiki/Vector_space_model, ale nie mogę zrozumieć terminu "algorytm term-wektor".Co to jest "algorytm term-wektor"?

Proszę wyjaśnić to w krótkim streszczeniu, bardzo prostym języku, tak jakby czytelnik był dzieckiem.

Uważam, że "wektor" odnosi się do definicji matematyki, która ma zarówno kierunek, jak i wielkość. Jak to się dzieje, że słowa kluczowe mają ruch w kierunku?

http://en.wikipedia.org/wiki/Vector_space_model stwierdza: "Każdy wymiar odpowiada odrębnemu terminowi." Myślałem, że wymiar odnosi się do liczności, czy to prawda?

enter image description here

Z książki Hadoop w praktyce Alex Holmes, strona 12.

+0

Podniosłem twoje pytanie, ale myślę, że jest bardziej odpowiednie dla [programmers.se] (http://programmers.stackexchange.com) –

+1

Niech T będzie zbiorem wszystkich haseł, takich jak słowa kluczowe na stronie internetowej . Wektor terminowy to rzadki wektor w N^| T | gdzie N to liczby naturalne. Każdy składnik terminu wektor może wskazywać, czy termin ten występuje w wyszukiwaniu lub stronie internetowej, lub ile razy ten termin występuje w wyszukiwaniu lub na stronie internetowej. – Paul

Odpowiedz

8

Oznacza to, że każde słowo tworzy osobny wymiar:

przykład: (bezwstydnie zaczerpnięty z here)

Dla modelu zawierającego tylko trzy słowa otrzymasz:

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1) 
+0

Więc wektor w tym przypadku nie oznacza ilości poruszającej się w określonym kierunku? – davidjhp

+0

@davidjhp Nie, to nie jest wektor w sensie geometrycznym. Jest to ta sama koncepcja, co "std :: vector", jeśli znasz C++. – Thomas

0

Najpopularniejszym przykładem MapReduce jest obliczenie częstotliwości pracy; mianowicie krok mapy, aby wypisać słowo jako klucz z 1 jako wartością i krokiem zmniejszającym sumowanie liczb dla każdego słowa. Jeśli więc strona internetowa zawiera listę (możliwych do powielenia) słów, które występują, każde słowo na tej liście jest odwzorowywane na 1. Krok zmniejszania w zasadzie liczy, ile razy każde słowo występuje na tej stronie. Możesz to zrobić na stronach, stronach internetowych lub dowolnych kryteriach. Uzyskane dane są słownikiem odwzorowującym słowo na częstotliwość, które jest w rzeczywistości terminem wektor częstotliwości.

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 } 
0

Wektory terminowe brzmią tak, jak gdyby chodziło tylko o to, że każdy termin ma przypisaną wagę lub liczbę, prawdopodobnie odpowiadającą liczbie wspomnianych terminów.

Myślicie o geometrycznym znaczeniu słowa wektorowego, ale istnieje jeszcze inne znaczenie matematyczne, które oznacza po prostu wiele wymiarów, tj. Zamiast wypowiadania x, y, z można powiedzieć, że wektor x pogrubiony ma wiele wymiarów x1, x2, x3 ... xn i niektóre wartości. Tak więc dla wektora terminowego wektor jest terminem i przyjmuje formę: term1, term2 do term. N. Każdy może mieć wartość, tak jak x, y lub z ma wartość.

Jako przykład, termin 1 może być psem, termin 2 cat, term3 lew, a każdy ma wagę, 2, 3, 1, co oznacza, że ​​słowo pies pojawia się dwukrotnie, kot 3 razy i lew 1 raz.