Według tego paper, najrzadziej Subsumer z dwóch pojęć A i B jest „najbardziej specyficzna koncepcja, która jest przodkiem zarówno A i B”, gdzie drzewo koncepcja jest zdefiniowany przez is-a
relacji. Pojęcie definiuje się jako przodka innej koncepcji, podobnie jak sposób zdefiniowania przodka w drzewie genealogicznym człowieka, który jest rodzicem drugiej koncepcji, dziadków i tak dalej. Na przykład:
- Samochód to samochód, i samochód jest pojazdem
- Łódka jest pojazd.
- Pojazd jest obiektem.
i wykres:
Object
|
Vehicle
|
---------
| |
Boat Automobile
|
Car
W tym przypadku, „samochód” jest rodzicem (a także przodkiem) z „samochód”, zaś „pojazd” jest przodkiem „samochód”. "Pojazd" jest także przodkiem "łodzi". W tym przypadku LCS "boat" i "car" jest "pojazdem", ponieważ jest to najbardziej konkretna koncepcja, która jest przodkiem zarówno "łodzi", jak i "samochodu". Zauważ, że chociaż "obiekt" jest popularnym subskrybentem zarówno "łodzi", jak i "samochodu", nie jest to najmniejszy problem, ponieważ wciąż jest dziecko "obiektu" (w tym przypadku jest to "pojazd"), który jest również powszechny. podlicznik zarówno "samochodu", jak i "łodzi". "Automobile" nie jest najmniej popularnym subskrypcją, ponieważ nie jest przodkiem "łodzi".
Aby obliczyć miarę podobieństwa, sugeruję użycie dostępnej biblioteki, w przeciwnym razie trzeba będzie samodzielnie zbudować wykres koncepcyjny, co jest kłopotliwe.
W Perl, można użyć WordNet::Similarity package
W Pythonie można użyć pakietu NLTK, konkretnie, wup_similarity
W Javie można użyć ws4j package
Co próbowałeś? Jak myślisz, jakie pliki są wymagane do wykonania tego zadania? – justhalf
Chcę wiedzieć, co to jest "najmniej popularny subskrybent"? –
Twoje pytanie brzmi: "Co to jest najmniej popularny subskrybent?". W takim przypadku powinieneś o tym wyraźnie powiedzieć, a potem tylko zapytasz, jak to obliczyć. – justhalf