Pracuję nad relatywnie dużym problemem z klasyfikacją sieciową tekstu i planuję użyć wielomianowego klasyfikatora Naive Bayes w sklearn w pytonie i schematu scrapy dla indeksowania . Jednakże jestem trochę zaniepokojony tym, że sklearn/python może być zbyt wolny dla problemu, który mógłby obejmować klasyfikację milionów stron internetowych. Szkoliłem już klasyfikatora na kilku tysiącach stron internetowych z DMOZ. Ramy badań są następujące:Używanie Sklearna i Pythona do dużego sklasyfikowania/skrobania aplikacji
1) Przeszukiwacz trafia na nazwę domeny i skreśla tekst z 20 linków w witrynie (o głębokości nie większej niż jeden). (Liczba skazanych słów w tym miejscu zdaje się wynosić od kilku tysięcy do nawet 150 000 w przypadku próbnego uruchomienia robota). 2) Uruchom sklearn multionmialny klasyfikator NB z około 50 000 funkcji i zapisz nazwę domeny w zależności od wyniku
Moje pytanie brzmi, czy klasyfikator oparty na Pythonie byłby w stanie wykonać zadanie dla tak dużej aplikacji, czy powinienem spróbować ponownie napisać klasyfikator (a może również skrobak i tokenizer) w szybszym środowisku? Jeśli tak, jakie może być to środowisko? A może Python wystarczy, jeśli towarzyszy mu równoległość kodu? Dzięki