2012-01-22 10 views
6

W projekcie moduł pobiera adres URL i określa, czy jest to witryna "e-commerce" czy "nie-e-commerce".Jak sprawdzić, czy adres URL witryny e-commerce lub nie-e-commerce jest programowany?

próbowałem następujących sposobów:

  1. Korzystanie Apache Kornak, klasyfikacja: URL ---> Zrób zrzut HTML ---> pre proces zrzut html przez a) usunięcie wszystkich znaczników html

    b) usuwanie słów zatrzymania (zwykłych słów), takich jak CDATA, href, wartość i, z, między itp.

    c) model szkoleniowy, a następnie testowanie.

Obserwuje params Użyłem do treningu

bin/Kornak trainclassifier \ -i szkoleniowo-data \ -o Bayesa model \> -type Bayesa -NG 1

Testowanie:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

Dokładność uzyskuję jako 73%, a algorytm cbayes uzyskuje 52%.

Mam zamiar ulepszyć etap wstępnego przetwarzania, wyodrębniając informacje, które można znaleźć w witrynie e-commerce, takie jak "Przycisk kasy", "link pay pal", "Ceny/symbol dolara", tekst "Płatność przy odbiorze", "30 dzień gwarancji itp.

Wszelkie sugestie, jak wyodrębnić te informacje lub inne sposoby przewidywania witryny jako e-commerce lub nie-e-commerce?

+2

Proszę sformatować pytanie następnym razem nieco ostrożniej. A przy tym dokładność 70% jest całkiem dobra na początek. –

Odpowiedz

1

Jestem bardzo zaskoczony, że osiągasz tak dobrą celność dzięki zwykłemu ekstrakcji html i klasyfikatorowi bayes.

Ale wydaje się, że jesteś na dobrej drodze z funkcjami, takimi jak przycisk kasy i ceny.

Oto papier znalazłem wczoraj podczas czytania o Yandex:

"To find out or to buy? Product review vs. Web shop classifier"

Chodzi o sposób wyraźny te dwa miejsca i niektóre techniki używali. Użyli też SVM zamiast naiwnych bayes.

+0

Dzięki Thomas. Papier jest ukierunkowany na podobny przypadek użycia, jak nasz. – geek

Powiązane problemy