2011-12-05 7 views
21

Miałem fajny pomysł do wdrożenia. Ja nazywam toJak analizować wiadomości twitterze? (ulepszenie mojego algorytmu)

FixTheUnFixed

Pomysł wygląda tak, wyobraź sobie jazdy lub podróży na całym świecie, a gdy widzisz jakąś przeszkodę lub uszkodzenia - Broken lekki, śmieci, które pokrywają całą ulicę lub jakikolwiek inny problem, który chciałby naprawić organ odpowiedzialny.

wszystko co musisz zrobić, to dodać coś podobnego do tego i możesz dodać zdjęcie oraz oczywiście lokalizację, korzystając z dziedziczenia usługi lokalizacji Twittera lub aplikacji Facebooka.

Tweet tak:

@FixTheUnFixed there is a broken fire hydrant here 
@FixTheUnFixed my cellular company charged me 18,572$ 
    for using my iPhone aboard. 

myślałem dużo o tym, jak dostać przetwarzania wiadomości. większość problemów, które pojawią się, dotyczy spraw gminy i chciałbym uzyskać lokalizację i ponownie wysłać wiadomość do odpowiedniej gminy lub wysłać im wiadomość e-mail.

moje dwa pomysły na uzyskanie tego adresu są przez google to (z google API).

algorytm pseudo jest:

1. get the location the Twitter's or Facebook's status sent from. 
2. look for key words such as trash, cats, animals etc. 
3. finding the relevant authority e-mail , twitter or Facebook account. 
4. send the message to the authority account and re-tweet it to the public 
    world so they can follow if there is any change. 
  • W 3. @ algo jest jakiś sprytny sposób je zaimplementować?
  • Nie chcę spamować władz i ani publikować spamu podstępnych ludzi.
  • Jak mogę poprawić powyższy algorytm?
  • Jak mogę wyszukać zasoby komunikacyjne organów relantowych ?
+0

Cóż, nie polecam dzielenia się pomysłami w takich miejscach ani nie widzisz, jak twoje pomysły pojawiają się w innych witrynach. – Tarik

+1

Świetny pomysł, naprawdę. Myślę, że coś w rodzaju wzorca obserwatora/słuchacza może działać. Tak więc różne ("zarejestrowane") władze mogłyby subskrybować słowa kluczowe. Jeśli chodzi o zapobieganie konfliktom - możesz wdrożyć jakąś "aukcję" słów kluczowych. Pewnie, że to tylko zgadujący komentarz. –

+4

@Braveyard Success pochodzi z doskonałej implementacji, a nie z dobrych pomysłów. – rds

Odpowiedz

0

Myślę, że słuszne jest użycie istniejącej biblioteki NLP, takiej jak Stanford nlp library.

który obejmuje:

  • Stanford CoreNLP
  • Stanford Parser
  • Stanford klasyfikatora

Alternatywnie, można użyć opennlp lub nltk. Jeśli framework NLP znajduje się w java i chcesz użyć pythona lub ruby ​​jako OP chciał sprawdzić jruby i jython obecnie.

8

Moja sugestia to zacząć od użycia Amazon Mechanical Turk - zapłacić prawdziwym ludziom niewielką opłatę za każdy tweet, który przetwarzają. Będą musieli ustalić, czy jest to spam, czy nie, a następnie, jeśli są uzasadnione, będą szukać odpowiednich informacji kontaktowych gminy. Tymczasem zbieraj szczegółowe statystyki każdego przetwarzanego tweeta, z którego możesz zbudować bazę danych. Na przykład możesz zobaczyć, że wszystkie tweety zawierające "Garbage" i "Chicago" generują odpowiedź z określonym numerem telefonu. Po zgromadzeniu wystarczającej ilości danych można zautomatyzować typowe/dobrze określone przychodzące tweety i stopniowo tworzyć z nich ciągłe udoskonalanie powiązań danych, korzystając z badań przeprowadzonych przez pracowników Turek.

Zasugerowałaby również wprowadzenie usługi tylko dla obszarów o ograniczonym dostępie, na przykład w Nowym Jorku lub Londynie. (Lub największe miasto w pobliżu, gdziekolwiek jesteś) W ten sposób informacje potrzebne do rozpoczęcia są znacznie mniejsze.

+0

@ J.F. Sebastian - Tak, dokładnie, dziękuję za tak wyraźne umieszczenie tego linka i połączenie z tą biblioteką. – mongiesama

+0

Co więcej, zamiast bazy danych, dane wyjściowe z Turk plus dane tweet (lokalizacja, słowa kluczowe itp.) Do szkolenia sieci neuronowej, aby prognozy dla przyszłych tweetów. Jeśli wszystko pójdzie dobrze, będziesz coraz mniej używać Turka. – maximdim

4

Jako pierwszy krok w kierunku rozwiązania, proponuję podłączyć szerokość/długość geograficzna w SimpleGeo (mają biblioteki iOS): http://simplegeo.com

Korzystanie coś jak „Znajdź granic otaczających miejsce”, można pobrać informacji o hrabstwie, gminie, okręgu ustawodawczym itd.która może dać wsparcie metadanych, a także kilka wylotów kopać Informacje kontaktowe:

https://simplegeo.com/docs/api-endpoints/simplegeo-context#find-boundaries-surrounding-location

Na przykład, jestem pewien, że można włączyć dzielnicę legislacyjny do adresu e-mail członek Kongresu poprzez część publicznie dostępnej strony internetowej/API. Być może wysłać do biura dwutygodniowy lub comiesięczny adres e-mail wszystkich zgłoszonych problemów w swojej dzielnicy i wywierać nacisk na wybranych urzędników, aby wprowadzić odpowiednią zmianę?

Inną opcją może być wyświetlenie bazy danych zgłaszanych problemów na publicznie dostępnej stronie internetowej i zebranie odpowiednich informacji kontaktowych za pośrednictwem tłumu. Zezwalaj członkom serwisu na dodawanie/aktualizowanie adresów e-mail, które mogą być używane w przypadku zgłaszanych obecnie problemów i problemów, które możesz otrzymać w tej samej lokalizacji w przyszłości.

2

Czy można by do tego celu użyć ifttt.com? to usługa automatyzacji działania na podstawie niestandardowych kryteriów.

Może uda ci się z nimi połączyć?