W jaki sposób mogę przewidzieć narodowość osoby z nazwiska?jak odgadnąć narodowość danej osoby od nazwiska?
Mam ogromną listę tekstów i nazwisk autorów. Chciałbym wskazać, które teksty zostały napisane przez lektorów języka łacińskiego, a które teksty zostały napisane przez native speakerów języka angielskiego, w celu zbadania, czy niektóre style pisma różnią się w jednej grupie od drugiej.
Szukałem w google i pubed na bazę danych nazwisk, ale nie mogłem znaleźć żadnych dostępnych za darmo. Innym podejściem jest użycie niektórych wyrażeń regularnych, na przykład ". * Ez" w celu identyfikacji niektórych hiszpańskich nazwisk takich jak "rodriguez", ale nie jest to zbyt daleko.
Masz jakieś sugestie? Ponieważ ręcznie dokonuję korekty wszystkich powiązań po wykonaniu prognozy, nie potrzebuję dużej dokładności, ale każda pomoc lub pomysł będą mile widziane.
Ktoś na TSA może wiedzieć. – awm
Wow. To wydaje się dość trudne. Wątpię, czy byłbyś w stanie osiągnąć jakąkolwiek wielką dokładność, ponieważ nazwiska mogą się zmieniać z pokolenia na pokolenie, a ludzie nie zawsze uważają się za osoby o konkretnej narodowości, nawet jeśli ich nazwisko pochodzi od tego narodu. Jaką dokładność będzie ci potrzebna? Przypuszczam, że gdybyś miał dostęp do danych, takich jak książki telefoniczne/spis ludności z różnych krajów, z pewnością mógłbyś szukać popularnych nazw i podobieństw do takich pospolitych nazwisk. Na przykład różnica 1 znaku jest w zasadzie taka sama. – Thor84no
Ponieważ masz hiszpańskie nazwisko, nie oznacza to, że nie mówisz po angielsku, ani nie działa w innym kierunku. – bitmask