Rozwiązuję problem klasyfikacji. Szkolę moją nienadzorowaną sieć neuronową dla zestawu encji (używając architektury skip-gram).Ocena wydajności osadzania sieci neuronowej w klasyfikatorze kNN
Sposób, w jaki jest poszukiwanie ocenić k najbliższych sąsiadów dla każdego punktu danych walidacyjnych, z danych treningowych. Biorę sumę ważoną (wagi na podstawie odległości) etykiet najbliższych sąsiadów i wykorzystuję tę punktację dla każdego punktu danych walidacyjnych.
Obserwacja - co zwiększa liczbę epok (model1
- 600 Epoki, model 2
- 1400 epok model 3
- 2000 Epoki), mój AUC poprawia przy mniejszych wartościach k
, ale zatrzymuje się na poziomie podobnej wartości.
Jakie jest możliwe wyjaśnienie tego zachowania?
[Reposted z CrossValidated]
Próbuję sklasyfikować opinie klientów w dwóch kategoriach. Embeddings są szkolone za pomocą wyroku 2vec. Napisałem niestandardowy klasyfikator kNN dla hadoop. – kampta
Czy to możliwe, że nie ma wystarczającej seperability między dwiema klasami? Na przykład, jeśli był to jakiś rodzaj analizy sentymentów, często doświadczamy podwójnych negatywnych wyrażeń, które mogą zaburzyć naiwny klasyfikator. –
Jeśli "model3" jest lepszy w klasyfikacji takich przypadków, czy nie miałby lepszego AUC niż "model1"? – kampta