2011-09-27 12 views
9

W jaki sposób mogę przewidzieć narodowość osoby z nazwiska?jak odgadnąć narodowość danej osoby od nazwiska?

Mam ogromną listę tekstów i nazwisk autorów. Chciałbym wskazać, które teksty zostały napisane przez lektorów języka łacińskiego, a które teksty zostały napisane przez native speakerów języka angielskiego, w celu zbadania, czy niektóre style pisma różnią się w jednej grupie od drugiej.

Szukałem w google i pubed na bazę danych nazwisk, ale nie mogłem znaleźć żadnych dostępnych za darmo. Innym podejściem jest użycie niektórych wyrażeń regularnych, na przykład ". * Ez" w celu identyfikacji niektórych hiszpańskich nazwisk takich jak "rodriguez", ale nie jest to zbyt daleko.

Masz jakieś sugestie? Ponieważ ręcznie dokonuję korekty wszystkich powiązań po wykonaniu prognozy, nie potrzebuję dużej dokładności, ale każda pomoc lub pomysł będą mile widziane.

+4

Ktoś na TSA może wiedzieć. – awm

+1

Wow. To wydaje się dość trudne. Wątpię, czy byłbyś w stanie osiągnąć jakąkolwiek wielką dokładność, ponieważ nazwiska mogą się zmieniać z pokolenia na pokolenie, a ludzie nie zawsze uważają się za osoby o konkretnej narodowości, nawet jeśli ich nazwisko pochodzi od tego narodu. Jaką dokładność będzie ci potrzebna? Przypuszczam, że gdybyś miał dostęp do danych, takich jak książki telefoniczne/spis ludności z różnych krajów, z pewnością mógłbyś szukać popularnych nazw i podobieństw do takich pospolitych nazwisk. Na przykład różnica 1 znaku jest w zasadzie taka sama. – Thor84no

+0

Ponieważ masz hiszpańskie nazwisko, nie oznacza to, że nie mówisz po angielsku, ani nie działa w innym kierunku. – bitmask

Odpowiedz

4

Nie sądzę, że można to zrobić z pewnym stopniem niezawodności. Rodriguez może mieć hiszpańskie pochodzenie, ale może się urodzić i wychować wszędzie. Mogą być Brytyjczykami drugiej generacji i nigdy nie rozmawiali z nimi po hiszpańsku, a więc należą do kategorii native speakerów języka angielskiego.

+8

To nie jest odpowiedź, ale komentarz. – bitmask

2

Nie ma znaczącego sposobu, aby to zrobić. Nie ma powodu, dla którego osoby o hiszpańskich nazwach nie mogą być native speakerami języka angielskiego.

Jeśli zamierzasz to zmienić, to dlaczego nie skorzystać z danych, które posiadasz?

+0

Potrzebuję zrobić to dla ogromnej listy tekstów, więc potrzebuję tego, aby ustawić wartości domyślne i ułatwić pracę. – dalloliogm

3

Jeśli autorzy są w rzeczywistości, to może uda ci się spider-amazon i sprawdzić szczegóły "informacji o autorze"?

Nie sądzę, że można zgadywać. Na przykład. Irlandzkie nazwiska - szacuje się, że 80 000 000 osób ma irlandzkie dziedzictwo, ale 4,5 miliona z nich mieszka w Irlandii/przeszły irlandzką edukację.

1

Zakładając, że zamierzasz programowo porównywać teksty, musisz ręcznie kategoryzować teksty. Nieprawidłowe domysły prawdopodobnie doprowadziłyby do zbudowania złamanego algorytmu analizy tekstu. Będzie to szczególnie problematyczne w uczeniu maszynowym, takim jak sztuczne sieci neuronowe.

Powiązane problemy