Robię NLP, gdzie dowiedziałem się, kiedy u pacjentów zdiagnozowano stwardnienie rozsiane.Czy istnieje sposób, aby powiedzieć NLTK, że pewne słowo nie jest właściwym rzeczownikiem, ale rzeczownikiem?
Chciałbym użyć nltk, aby powiedzieć mi, że rzeczownikiem zdania było stwardnienie rozsiane. Problem polega na tym, że lekarze często określają stwardnienie rozsiane jako MS, które nltk przyjmuje jako właściwy rzeczownik.
Na przykład to zdanie: "Jego stwardnienie rozsiane zostało zdiagnozowane w 1999 roku". Jest oznaczony jako: [('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]
MS powinno być rzeczownikiem tutaj. Jakieś sugestie?
Rozpoznanie określonego obiektu jest trudnym problemem. Wypróbuj [this] (http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages). –
Obecnie używasz domyślnych znaczników POS. W takim przypadku musisz trenować własny korpus z uwzględnieniem poprawnych wartości POS. Jeśli nie jako mechanizm awaryjny, powinieneś mieć kolejną warstwę korekcji błędów po użyciu standardowego modelu POS Tagger. – Renien
Jakie jest źródło danych? Czy można udostępniać? Czy istnieje lista słów/wyrażeń/skrótów, które mają być zawsze rzeczownikami? Czy masz oznaczone dane? Jaka jest domena danych? Jaki jest ostateczny cel tagowania POS? Odpowiedź na te pytania zawęziłaby rozwiązania twoich pytań. – alvas