5

Mam wątpliwości dotyczące obliczania IDF (Inverse Document Frequency) w kategoryzacji dokumentów. Mam więcej niż jedną kategorię z wieloma dokumentami do szkolenia. Ja obliczania IDF dla każdego terminu w dokumencie z zastosowaniem następującego wzoru:Obliczanie IDF (Inverse Document Frequency) dla kategoryzacji dokumentów

IDF(t,D)=log(Total Number documents/Number of Document matching term); 

moje pytania są następujące:

  1. Co robi „całkowita liczba w Corpus dokumentów” oznacza? Czy dokument liczy się od bieżącej kategorii czy ze wszystkich dostępnych kategorii?
  2. Co oznacza "Liczba zgodnych terminów dokumentów"? Czy termin dokument pasujący jest liczony od bieżącej kategorii czy ze wszystkich dostępnych kategorii?

Odpowiedz

9

Total Number documents in Corpus to po prostu ilość dokumentów, które posiadasz w swoim korpusie. Więc jeśli masz 20 dokumentów, ta wartość to 20.

Number of Document matching term to liczba dokumentów określających termin t. Więc jeśli masz w sumie 20 dokumentów i termin t występuje w 15 dokumentach następnie wartość Number of Documents matching term wynosi 15.

Wartość tego przykładu byłoby zatem IDF(t,D)=log(20/15) = 0.1249

Teraz, jeśli się nie mylę, masz wiele kategorii na dokument i chcesz móc kategoryzować nowe dokumenty z jedną lub więcej z tych kategorii. Jedną z metod jest utworzenie jednego dokumentu dla każdej kategorii. Każdy dokument kategorii powinien zawierać wszystkie teksty oznaczone tą kategorią. Następnie możesz wykonać tf*idf na tych dokumentach.

Prosty sposób na kategoryzację nowego dokumentu można wówczas osiągnąć, sumując wartości zapytania z użyciem różnych wartości terminów obliczanych dla każdej kategorii. Kategoria, której wartości terminowe użyte do obliczenia produktu, powodują, że najwyższy wynik zostanie oceniony jako pierwszy.

Inną możliwością jest utworzenie wektora dla zapytania za pomocą idf każdego terminu w zapytaniu. Wszystkie terminy, które nie występują w zapytaniu, mają wartość 0. Wektor zapytań można następnie porównać pod względem podobieństwa do każdego wektora kategorii za pomocą, na przykład, cosine similarity.

Smoothing to również przydatna technika radzenia sobie ze słowami w zapytaniu, które nie występują w korpusie.

Proponuję przeczytać sections 6.2 and 6.3 "Wstęp do wyszukiwania informacji" Christophera D. Manninga, Prabhakara Raghavan i Hinricha Schütze.

+0

Dzięki .. Mam odpowiedź. Ale czy możesz wyjaśnić, jak kategoryzować nowy dokument, który jest mało opracowany ?. W ten sposób uzyskać kategorię dopasowania dla nowego dokumentu ?. Następnie, jak utworzyć wektor częstotliwości dla nowego dokumentu do dopasowania? .. –

+0

Dodałem informacje do mojej odpowiedzi. – Sicco

+0

Dzięki za pomoc .. –

-1

Napisałem mały słupek opisujący termin częstotliwości-odwrotność częstotliwości dokument tutaj: http://bigdata.devcodenote.com/2015/04/tf-idf-term-frequency-inverse-document.html

Oto fragment ze stanowiska:

tfidf jest najbardziej podstawowym metryczny szeroko stosowane w klasyfikacji dokumentów . Spróbujmy zdefiniować następujące warunki:

Częstotliwość terminów jest zasadniczo znacząca z częstotliwości występowania określonego słowa w dokumencie w porównaniu do innych słów w dokumencie.

Odwrotność Częstotliwość dokumentów z drugiej strony jest znacząca w zakresie występowania słowa we wszystkich dokumentach dla danego zbioru (dokumentów, które chcemy sklasyfikować w różnych kategoriach).

Powiązane problemy