Planuję napisać narzędzie do wykrywania tematów na Twitter. Myślałam o dobrej miary podobieństwa (na odległość) między dwoma tweets, jak i do ich reprezentowania, podejmowania w Count:Reprezentacja i dobre podobieństwo między tweetami do wykrywania tematów
#hashtags
(myślę hashtags są bardzo ważne w przypadku wykrycia na tematy Twitter)- odpowiedzi (jeśli ktoś odpowie na tweet te tweety mógłby mówić o tym samym temacie, chociaż dwa ludzie mogli zacząć mówić o samsung galaxy i kończyć rozmowy o iphone jailbreaking, itp.)
Zastanawiam się nad wdrożeniem tego, co do tej pory, i przeprowadzeniem eksperymentów. Będę wdrożyć klasyczne modele (jak TF*IDF
i użyć euklidesową odległość, kąt cosinus, etc.), a wartość logiczna modele z kilku środków podobieństwa (Hamminga, Jaccard, itd.).
Wszelkie pomysły na dostosowanie istniejącego modelu do Twitter lub kilka pomysłów na temat tworzenia nowego?
Dziękuję za odpowiedź. Rzucę okiem na te artykuły teraz :) –
Cześć Pulkit, masz papier opisujący pracę, którą zrobiłeś w związku z tym, co mogę przeczytać? – KillBill