2010-07-01 16 views
8

Poszukuję odsyłaczy (samouczki, książki, literatura akademicka) dotyczących struktury niestrukturalnego tekstu w sposób podobny do przycisku szybkiego dodawania kalendarza Google.Niestrukturalny tekst do danych strukturalnych

Rozumiem to może mieścić się w kategorii NLP, ale jestem zainteresowany tylko w procesie dzieje z czymś takim „Levi dżinsy rozmiar 32 A0b293”

dla: Marka: Levi, Rozmiar: 32, Kategorii: Dżinsy, kod: A0b293

Wyobrażam sobie, że byłaby to kombinacja leksykalnej techniki parsowania i uczenia maszynowego.

Jestem raczej język agnostykiem, ale jeśli pchnął woleliby Python, Matlab lub referencje C++

Dzięki

+0

Jak ograniczona jest Twoja domena? Kalendarz Google Szybkie dodawanie analizuje tylko daty i godziny (i nie zawsze tak dobrze). Pole wyszukiwania w Mapach Google obsługuje tylko lokalizacje. Trudność w tym względzie zależy od tego, jak wąska jest Twoja domena.(Katalog produktów?) – tcarobruce

+0

Ograniczony do czynienia z clotthes jak w przykładzie – zenna

Odpowiedz

7

Musisz podać więcej informacji o źródle tekstu (w internecie? Wejściowe użytkownika?), domena (czy to tylko ubrania?), potencjalne formatowanie i słownictwo ...

Zakładając najgorszy scenariusz, musisz zacząć uczyć się NLP. Bardzo dobrą darmową książką jest dokumentacja NLTK: http://www.nltk.org/book. Jest to również bardzo dobre wprowadzenie do Pythona, a SW jest bezpłatny (dla różnych zastosowań). Ostrzegam: NLP jest trudne. To nie zawsze działa. Czasami nie jest to zabawne. Najnowocześniejszy stan wiedzy nie znajduje się w pobliżu miejsca, w którym można to sobie wyobrazić.

Zakładając lepszy scenariusz (tekst jest częściowo ustrukturyzowany) - dobrym bezpłatnym narzędziem jest pyparsing. Jest książka, mnóstwo przykładów, a wynikowy kod jest niezwykle atrakcyjny.

Mam nadzieję, że to pomaga ...

1

Być może wyglądać na "zbiorowej inteligencji" Toby Segaran. Wydaje mi się, że pamiętam, że zajmuję się podstawami tego w jednym rozdziale.

+0

jeden z najlepszych książek dla wywiadu zbiorowego tam. – jvc

0

Jeśli pracujesz tylko dla przypadków, takich jak przykład, który cytujesz, lepiej jest użyć niektórych m oparte na regułach, które jest w 100% przewidywalne i obejmuje 90% przypadków, w których może napotkać produkcję.

Można wyliczyć listę wszystkich możliwych marek i kategorii oraz wykryć, które jest w łańcuchu wejściowym, ponieważ zwykle jest bardzo mało przecięcie na tych dwóch listach.

Pozostałe dwie można łatwo wykryć i wyodrębnić za pomocą wyrażeń regularnych. (1-3 cyfry są zawsze rozmiarami, itp.)

Twoja domena problemowa nie wydaje się wystarczająco duża, aby uzasadnić bardziej wymagające podejście, takie jak uczenie się statystyk.

+0

Zgadzam się, podejrzewam, że kalendarz Google używa systemu opartego na regułach (myślę, że wyrażeń regularnych) do wykonania analizy. Uczenie maszynowe jest bardziej przydatne podczas wyciągania informacji z bardziej niepewnego tekstu. Ale jeśli twoja domena jest dość dobrze znana, a ciąg wejściowy jest ograniczony, możesz uciec od reguł. – Thien

Powiązane problemy