Jak przekonwertować znaki spoza ASCII zakodowane w UTF8 na równoważnik ASCII w Perlu?

Mam skrypt Perla, który jest wywoływany przez osoby trzecie, aby wysłać mi nazwiska osób, które zarejestrowały moje oprogramowanie. Jedna z tych stron koduje nazwy w UTF-8, więc odpowiednio dostosowałem mój skrypt, aby odszyfrować kodowanie UTF-8 do ASCII za pomocą Encode :: decode_utf8 (...).Jak przekonwertować znaki spoza ASCII zakodowane w UTF8 na równoważnik ASCII w Perlu?

Zwykle działa dobrze, ale co 6 miesięcy jedna z nazw zawiera znaki cyrylicy, greki lub rumuńskie, więc dekodowanie nazwy powoduje powstawanie znaków śmieci, takich jak "ÐŸÐ¾Ð'Ñ € Ð ° Ð¶Ð ° Ð½ÑÐºÐ ° Ñ ". Muszę skontaktować się z klientem i poprosić go o "łacińską wersję postaci" jego nazwiska w celu wydania kodu rejestracyjnego.

Więc jest jakiś moduł Perl, które mogą wykryć, czy istnieją takie znaki i automatycznie przekłada je do najbliższego ASCII w razie potrzeby?

Wygląda na to, że mogę używać Lingua :: Cyrillic :: Translit :: ICAO plus Lingua :: DetectCharset do obsługi cyrylicy, ale wolę coś, co działa również z innymi zestawami znaków.

Źródło

2009-03-12 Adrian Grigore

wierzę można użyć Text::Unidecode dla tego, to właśnie to, co próbuje zrobić.

Źródło

2009-03-12 14:21:35 mirod

Właśnie tego szukałem - dzięki! :-) –

Jeśli masz do czynienia z UTF-8 danych, które nie mieszczą się w zakresie ASCII, najlepiej jest zmienić backend więc nie dusić na UTF-8. Jak byś posunął się do transliteracji znaków kanji?

Źródło

2009-03-12 11:05:37 innaM

W ciągu ponad 10 lat rozwoju shareware, miałem tylko garść klientów z Japonii i Chin. Unicode - włączenie wszystkich moich programów typu shareware tylko po to, by zadbać o łagodną irytację byłoby przesadzone. W tym przypadku bardziej szukam szybkiego i brudnego podejścia. –

Więc może (tylko może), możesz znaleźć dużo więcej klientów, jeśli włączysz utf-8? – innaM

Kilka: tak. Wiele i warte czasu rozwoju: Nie. Piractwo jest bardzo dużym problemem w branży shareware, szczególnie w krajach takich jak Chiny. Japoński rynek nie jest zły, ale z tego, co słyszałem od innych twórców shareware, zazwyczaj nie jest to warte, chyba że masz naprawdę duży tytuł. –

Jeśli otrzymasz tekst cyrylicowy, dla wielu postaci nie ma "najbliższej reprezentacji ASCII".

Źródło

2009-03-12 14:25:02

+1. Transliteracja to nie prosta sprawa zastąpienia pojedynczych znaków. Albo poprawnie obsługuj Unicode, albo tylko obsługuj ASCII; wszystko pomiędzy szybko staje się bałaganem. – bobince

Niemniej jednak za każdym razem, gdy pytam kogoś z Rosji o jego imię, jest on w stanie przedstawić jego wersję w wersji łacińskiej. Mam świadomość, że niektóre postacie są tylko przybliżonymi przybliżeniami, ale oczywiście musi istnieć rozwiązanie mojego problemu. –

Cóż, niektóre imiona, które podają jako łacińskie odpowiedniki, nie są ich "prawdziwymi" imionami. –

W dokumentacji Text :: Unicode, w sekcji „Ostrzeżenia”, wydaje się, że to zdanie jest błędne:

Upewnij się, że dane wejściowe naprawdę jest ciągiem znaków utf8.

UTF-8 to kodowanie o zmiennej długości, natomiast Text :: Unidecode akceptuje kodowanie o stałej długości (dwubajtowe) dla każdego znaku. Tak że zdanie powinno brzmieć:

Upewnij się, że dane wejściowe naprawdę jest ciągiem dwa-bajtowych znaków Unicode.

Jest to również nazywane UCS-2.

Jeśli chcesz przekonwertować ciągi, które są naprawdę utf8, by to zrobić tak:

my $decode_status = utf8::decode($input_to_be_converted); 
my $converted_string = unidecode ($input_to_be_converted);

Źródło

2014-09-30 15:34:26

Jak przekonwertować znaki spoza ASCII zakodowane w UTF8 na równoważnik ASCII w Perlu?

Odpowiedz

Powiązane problemy