W projekcie moduł pobiera adres URL i określa, czy jest to witryna "e-commerce" czy "nie-e-commerce".Jak sprawdzić, czy adres URL witryny e-commerce lub nie-e-commerce jest programowany?
próbowałem następujących sposobów:
Korzystanie Apache Kornak, klasyfikacja: URL ---> Zrób zrzut HTML ---> pre proces zrzut html przez a) usunięcie wszystkich znaczników html
b) usuwanie słów zatrzymania (zwykłych słów), takich jak CDATA, href, wartość i, z, między itp.
c) model szkoleniowy, a następnie testowanie.
Obserwuje params Użyłem do treningu
bin/Kornak trainclassifier \ -i szkoleniowo-data \ -o Bayesa model \> -type Bayesa -NG 1
Testowanie:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Dokładność uzyskuję jako 73%, a algorytm cbayes uzyskuje 52%.
Mam zamiar ulepszyć etap wstępnego przetwarzania, wyodrębniając informacje, które można znaleźć w witrynie e-commerce, takie jak "Przycisk kasy", "link pay pal", "Ceny/symbol dolara", tekst "Płatność przy odbiorze", "30 dzień gwarancji itp.
Wszelkie sugestie, jak wyodrębnić te informacje lub inne sposoby przewidywania witryny jako e-commerce lub nie-e-commerce?
Proszę sformatować pytanie następnym razem nieco ostrożniej. A przy tym dokładność 70% jest całkiem dobra na początek. –