5

Rozwiązuję problem klasyfikacji. Szkolę moją nienadzorowaną sieć neuronową dla zestawu encji (używając architektury skip-gram).Ocena wydajności osadzania sieci neuronowej w klasyfikatorze kNN

Sposób, w jaki jest poszukiwanie ocenić k najbliższych sąsiadów dla każdego punktu danych walidacyjnych, z danych treningowych. Biorę sumę ważoną (wagi na podstawie odległości) etykiet najbliższych sąsiadów i wykorzystuję tę punktację dla każdego punktu danych walidacyjnych.

Obserwacja - co zwiększa liczbę epok (model1 - 600 Epoki, model 2 - 1400 epok model 3 - 2000 Epoki), mój AUC poprawia przy mniejszych wartościach k, ale zatrzymuje się na poziomie podobnej wartości.

Jakie jest możliwe wyjaśnienie tego zachowania?

enter image description here

[Reposted z CrossValidated]

+0

Próbuję sklasyfikować opinie klientów w dwóch kategoriach. Embeddings są szkolone za pomocą wyroku 2vec. Napisałem niestandardowy klasyfikator kNN dla hadoop. – kampta

+0

Czy to możliwe, że nie ma wystarczającej seperability między dwiema klasami? Na przykład, jeśli był to jakiś rodzaj analizy sentymentów, często doświadczamy podwójnych negatywnych wyrażeń, które mogą zaburzyć naiwny klasyfikator. –

+0

Jeśli "model3" jest lepszy w klasyfikacji takich przypadków, czy nie miałby lepszego AUC niż "model1"? – kampta

Odpowiedz

0

Aby przejechać sprawdzić czy niezrównoważony klasy są problemem, spróbuj dopasowanie modelu SVM. Jeśli to daje lepszą klasyfikację (możliwą, jeśli twoja SSN nie jest zbyt głęboka), możesz wywnioskować, że klasy powinny być najpierw zrównoważone.

Spróbuj także użyć niektórych funkcji jądra, aby sprawdzić, czy transformacja umożliwia liniowe rozdzielanie danych?

Powiązane problemy