Zastanawiałem się, jak ty pójdzie o tokenizing ciągi w języku angielskim (lub innych językach zachodnich), jeśli odstępy zostały usunięte?Justadistraction: tokenizing English bez białych znaków. Murakami SheepMan
Inspiracją dla tej kwestii jest postać Sheep Człowiek w powieści Murakami „Dance Dance Dance”
W powieści Sheep Człowiek jest tłumaczone jako mówiąc takie rzeczy jak:
„likewesaid, my” lldowhatwecan. Trytoreconnectyou, towhatyouwant ", powiedział mężczyzna owiec. "Butwecan'ddoit-alone. Yougottaworktoo."
Tak więc niektóre znaki interpunkcyjne są zachowywane, ale nie wszystkie. Wystarczy, aby człowiek mógł ją przeczytać, ale jest nieco arbitralny.
Jaka byłaby Twoja strategia tworzenia parsera? Typowe kombinacje liter, liczby sylab, gramatyki warunkowej, regexps look-ahead/behind itp.?
W szczególności python-wise, w jaki sposób utworzyłbyś (tłumaczący) przepływ tłumaczeń? Nie prośba o kompletną odpowiedź, tylko o to, w jaki sposób twój proces myślowski pozwoliłby rozwiązać problem.
Pytam o to w frywolny sposób, ale myślę, że jest to pytanie, które może uzyskać kilka ciekawych (NLP/crypto/częstotliwość/socjalne) odpowiedzi. Dzięki!
Można spróbować drzewa radix na piśmie przez wyszukiwań liter. Pozwoliłoby to również łatwo stwierdzić, czy były dłuższe potencjalne dopasowania. – Olson
Och, wow. Myślałem o czymś takim (drzewo z 26 dziećmi w każdym węźle, było moją myślą), ale mój szef powiedział, że to absurdalny pomysł. Muszę przestać go słuchać. > :( – JoshD
+1 Tak naprawdę myślałem o czymś takim jakiś czas temu, nawet natknąłem się na te same problemy: "cześć tam" == "hithere" == "uderzenie tutaj". "Aby ją zdobyć" == " razem "==" razem ". – inspectorG4dget