Reprezentacja i dobre podobieństwo między tweetami do wykrywania tematów

Planuję napisać narzędzie do wykrywania tematów na Twitter. Myślałam o dobrej miary podobieństwa (na odległość) między dwoma tweets, jak i do ich reprezentowania, podejmowania w Count:Reprezentacja i dobre podobieństwo między tweetami do wykrywania tematów

#hashtags (myślę hashtags są bardzo ważne w przypadku wykrycia na tematy Twitter)
odpowiedzi (jeśli ktoś odpowie na tweet te tweety mógłby mówić o tym samym temacie, chociaż dwa ludzie mogli zacząć mówić o samsung galaxy i kończyć rozmowy o iphone jailbreaking, itp.)

Zastanawiam się nad wdrożeniem tego, co do tej pory, i przeprowadzeniem eksperymentów. Będę wdrożyć klasyczne modele (jak TF*IDF i użyć euklidesową odległość, kąt cosinus, etc.), a wartość logiczna modele z kilku środków podobieństwa (Hamminga, Jaccard, itd.).

Wszelkie pomysły na dostosowanie istniejącego modelu do Twitter lub kilka pomysłów na temat tworzenia nowego?

Źródło

2013-02-06 Oscar Mederos

Similarity Metrics on Twitter omawia niektóre szczegóły dotyczące różnych miar podobieństwa, które można wykorzystać do grupowania danych ze Twittera razem. Przeprowadziliśmy badania nad tworzeniem klastrów użytkowników na Twitterze w oparciu o połączenia użytkowników, wzmianki o użytkownikach, geolokalizację, podobieństwo treści między tweetami, podobieństwo treści między opisami użytkowników a wspólnym #hashtagiem.

Aby znaleźć wspólne tematy na Twitterze, znalezienie kontaktów między użytkownikami omawiającymi tematy naprawdę pomaga i okazało się, że grupa użytkowników dyskutuje o wspólnym temacie. Jest trochę szczegółów na ten temat w drugiej połowie this post.

Źródło

2013-02-06 11:48:22

Dziękuję za odpowiedź. Rzucę okiem na te artykuły teraz :) –

Cześć Pulkit, masz papier opisujący pracę, którą zrobiłeś w związku z tym, co mogę przeczytać? – KillBill

Reprezentacja i dobre podobieństwo między tweetami do wykrywania tematów

Odpowiedz

Powiązane problemy