Czy istnieje sposób, aby znaleźć wszystkie zdania podrzędne zdania, które są nadal znaczące i zawierać co najmniej jeden temat, czasownik i predykat/obiekt?Znajdowanie znaczących zdań podrzędnych od zdania
Na przykład, jeśli mamy zdanie typu "Mam zamiar zrobić seminarium na temat NLP na SXSW w Austin w przyszłym miesiącu". Możemy wydobyć następujące znaczące podpunkty tego zdania: "Zrobię seminarium", "Zorganizuję seminarium na temat NLP", "Zorganizuję seminarium na temat NLP na SXSW", " Mam zamiar zrobić seminarium na SXSW "," Mam zamiar zrobić seminarium w Austin "," Mam zamiar zrobić seminarium na temat NLP w przyszłym miesiącu ", itp.
Należy pamiętać, że nie ma wydedukowane zdania tutaj (np. "W przyszłym miesiącu odbędzie się seminarium NLP na SXSW". Chociaż to prawda, nie potrzebujemy tego jako części tego problemu.). Wszystkie generowane zdania są ściśle częścią danego zdania.
Jak możemy podejść do rozwiązania tego problemu? Myślałem o stworzeniu adnotowanych danych treningowych, które mają zestaw legalnych pod zdań dla każdego zdania w zbiorze danych treningowych. A następnie napisz kilka nadzorowanych algorytmów uczenia się, aby wygenerować model.
Jestem całkiem nowy w NLP i uczeniu maszynowym, więc byłoby wspaniale, gdybyście mogli zaproponować kilka sposobów rozwiązania tego problemu.
w przykładzie, czy też chcą trywialne subsentences jak "jadę" i "jestem"? A może "Jadę do Austin w przyszłym miesiącu"? –
@Adrian McCarthy: "Jadę do Austin w przyszłym miesiącu" wpadnie w "wyrok wydany", jak opisano w pytaniu.Nie są one tutaj pożądane, ponieważ implikują semantyczne potraktowanie zdania wejściowego, zgodnie z którym, jak rozumiem, chodzi o uwzględnienie/wykluczenie różnych kombinacji kwalifikowanych zdań przyimkowych z oryginalnego tekstu. – mjv
@Adrian McCarthy: podniosłeś fajny punkt. Podtytuł "Jadę do Austin" pada nieco na granicy między wydedukowanym zdaniem a "surowym" podpunktem. Ale ponieważ wymóg jest tylko do podsekcji, które są ściśle określone w zdaniu, pomijamy to zdanie. –