2013-09-05 11 views
9

chcę użyć metody Wu i Palmer obliczania miary podobieństwa w WordNet,Co to jest "najczęstszy subskrybent" i jak go obliczyć?

wp = (2 X depth(lcs))/(depth(synset1) + depth(synset2)) 

gdzie lcs jest "najmniej wspólnego subsumer" z synset1 i synset2

Moje pytanie brzmi:

  1. Co to jest "najmniej popularny subskrybent"?
  2. Jak to obliczyć?
+0

Co próbowałeś? Jak myślisz, jakie pliki są wymagane do wykonania tego zadania? – justhalf

+0

Chcę wiedzieć, co to jest "najmniej popularny subskrybent"? –

+1

Twoje pytanie brzmi: "Co to jest najmniej popularny subskrybent?". W takim przypadku powinieneś o tym wyraźnie powiedzieć, a potem tylko zapytasz, jak to obliczyć. – justhalf

Odpowiedz

15

Według tego paper, najrzadziej Subsumer z dwóch pojęć A i B jest „najbardziej specyficzna koncepcja, która jest przodkiem zarówno A i B”, gdzie drzewo koncepcja jest zdefiniowany przez is-a relacji. Pojęcie definiuje się jako przodka innej koncepcji, podobnie jak sposób zdefiniowania przodka w drzewie genealogicznym człowieka, który jest rodzicem drugiej koncepcji, dziadków i tak dalej. Na przykład:

  1. Samochód to samochód, i samochód jest pojazdem
  2. Łódka jest pojazd.
  3. Pojazd jest obiektem.

i wykres:

 
    Object 
     | 
    Vehicle 
     | 
    --------- 
    |  | 
Boat Automobile 
      | 
     Car 

W tym przypadku, „samochód” jest rodzicem (a także przodkiem) z „samochód”, zaś „pojazd” jest przodkiem „samochód”. "Pojazd" jest także przodkiem "łodzi". W tym przypadku LCS "boat" i "car" jest "pojazdem", ponieważ jest to najbardziej konkretna koncepcja, która jest przodkiem zarówno "łodzi", jak i "samochodu". Zauważ, że chociaż "obiekt" jest popularnym subskrybentem zarówno "łodzi", jak i "samochodu", nie jest to najmniejszy problem, ponieważ wciąż jest dziecko "obiektu" (w tym przypadku jest to "pojazd"), który jest również powszechny. podlicznik zarówno "samochodu", jak i "łodzi". "Automobile" nie jest najmniej popularnym subskrypcją, ponieważ nie jest przodkiem "łodzi".

Aby obliczyć miarę podobieństwa, sugeruję użycie dostępnej biblioteki, w przeciwnym razie trzeba będzie samodzielnie zbudować wykres koncepcyjny, co jest kłopotliwe.

W Perl, można użyć WordNet::Similarity package

W Pythonie można użyć pakietu NLTK, konkretnie, wup_similarity

W Javie można użyć ws4j package

+0

Dzięki za odpowiedź, teraz chcę wiedzieć, jaka jest głębokość LCS (łódź, samochód)?Czy to 3 czy 4? –

+2

Sugeruję, aby przeczytać więcej o drzewie (http://en.wikipedia.org/wiki/Tree_(data_structure)). Zasadniczo głębokość jest obliczana z korzenia drzewa. Używając mojego wykresu, root to 'Object'. Głębokość "Obiektu" wynosi zatem 0. Teraz "LCS (Łódź, Samochód)" to "Pojazd", więc głębokość wynosi 1. – justhalf

+0

Powinno być "najbardziej szczegółową koncepcją", więc jest najdalej w dół, który wciąż jest "Pojazdem" – justhalf