Potrzebuję listy zakresów znaków Unicode z właściwością Alphabetic
zgodnie z definicją w http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic. Jednak nie mogę znaleźć ich w bazie danych Unicode, bez względu na to, jak je znajdę. Czy ktoś może podać ich listę lub po prostu funkcję wyszukiwania znaków z określonymi właściwościami Unicode?Lista znaków alfabetu Unicode
Odpowiedz
Pochodne Właściwości rdzenia można obliczyć na podstawie innych właściwości.
Obiekt Alfabetyczny jest zdefiniowany jako: Generated od: Lu + LI + Lt + Lm + Lo + NI + Other_Alphabetic
Tak więc, jeśli wziąć wszystkie postacie w Lu, LI, LT, Lm, Lo, Nl i wszystkie znaki z właściwością Other_Alphabetic, będziesz mieć litery alfabetu.
Cytat ze źródła: Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
Te Skróty wydaje się być wyjaśnione here.
Baza danych znaków Unicode zawiera wszystkie pliki tekstowe w dystrybucji. To nie jest tylko pojedynczy plik, jak dawno temu.
Własność alfabetyczna jest własnością pochodną.
Naprawdę nie chcesz używać zakresów punktów kodowych dla tego. Chcesz użyć właściwości prawidłowo. To dlatego, że jest ich zbyt wielu. Korzystanie z unichars script dowiadujemy się, że istnieje więcej niż dziesięć tysięcy tylko w Basic Multilingual Plane sam nie liczenie Han lub hangyl:
$ unichars '\p{Alphabetic}' | wc -l
10052
Gdybyśmy zawierać inne 16 plan astralny, teraz jesteśmy w czternastu tysiąc:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
A jeśli obejmują Han i Hangul, która w rzeczywistości własnością Alfabetyczny robi, po prostu wiał dach off punktów kodowych sto tysięcy:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
Mam nadzieję, że widzisz, że robisz , a nie, chcesz je konkretnie wyliczyć, używając zakresów punktów kodowych. W dół tej drogi leży szaleństwo.
Nawiasem mówiąc, jeśli znajdziesz unichars script użyteczne polubisz też na a może uninames script.
Bardzo podoba mi się wasze skrypty! Będą bardzo przydatne w rozwiązywaniu [pytania] (http://stackoverflow.com/questions/6246651/generate-uri-friendly-unicode-code-points-from-integer-counter), które miałem. Dziękuję bardzo za ich wykonanie. Pytanie: kiedy po prostu uruchomiłem ostatnie polecenie powyżej ('unichars -ua '\ p {Alphabetic}' | wc -l'), otrzymałem 94332 wiersze zamiast 101539. Czy jest jakiś powód? –
@Abe: Prawdopodobnie nie korzystasz jeszcze z Unicode 6.0.0.Którą wersję Perl używasz? 'corelist -a Unicode' pokaże pary wersji Perla z wersjami Unicode. BTW, mam teraz w moim [Unicode toolchest] (http://training.perl.com/scripts/), z więcej na drodze. – tchrist
Ach tak, używam Perl 5 nadal. Zdecydowanie ulepszę Perla i sprawdzę twoje nowe narzędzia. Dzięki! –
Znalazłem aplikację internetową UniView, która zapewnia przyjemny interfejs wyszukiwania. Wyszukiwanie właściwości Letter (z niezaznaczoną lokalnie) daje 14723 wyniki ...
Właściwość Letter nie jest taka sama jak właściwość Alphabetic !!!! W Unicode 6.0.0 istnieje 101539 punktów kodowych z właściwością Alfabetyczny, ale tylko 100520 z właściwością Letter, różnica ponad tysiąca znaków. BTW, twoja odpowiedź 14k jest wyłączona o rząd wielkości. – tchrist
Masz rację. BTW, myślę, że narzędzie UniView nie uwzględnia Han i Hangul. – thSoft
- 1. lista unicode Python dołączyć
- 2. Lista ciągów unicode
- 3. Lista znaków Unicode, które powinny być filtrowane na wyjściu?
- 4. Jak utworzyć Ruby 1.8 dla znaków spoza alfabetu łacińskiego?
- 5. Sprostowanie JavaScript dla znaków alfabetu i spacji?
- 6. Odwrotność wszystkich znaków alfabetu w ciągu C#
- 7. chińskich znaków zamiast znaków spoza alfabetu łacińskiego (Mojibake błąd ?!)
- 8. druku znaków Unicode
- 9. Usuwanie modyfikatorów znaków Unicode
- 10. Python - pyparsing znaków unicode
- 11. znaków Unicode nie pokazuje
- 12. Drukowanie znaków Unicode PHP
- 13. Wyświetlanie znaków Unicode znaków iOS w Internecie
- 14. Konwertowanie znaków Unicode na ciąg znaków
- 15. Zastępowanie znaków Unicode w PostgreSQL
- 16. ekwiwalent ciągu znaków Unicode zawiera
- 17. Wyłączanie liter alfabetu i znaków specjalnych w Visual Basic.NET
- 18. Jak mogę sprawdzić, czy ciąg znaków zawiera DOWOLNE litery alfabetu?
- 19. Włączanie soundex/metaphone dla znaków spoza alfabetu angielskiego
- 20. filtracyjne znaków spoza alfabetu spośród ciąg w skrypcie powłoki
- 21. Unicode Maven ArtifactId
- 22. Jak podzielić ciąg znaków Unicode na wiele znaków Unicode w języku C#?
- 23. Jak przekonwertować ciąg znaków na znak Unicode?
- 24. Odczytywanie znaków Unicode z pliku CSV
- 25. Python 3 smtplib wysłać ze znaków Unicode
- 26. Drukuj Łańcuch znaków Unicode jako rzeczywisty charakter
- 27. Drukuj ciąg znaków Unicode w R
- 28. Zwracanie pierwszych N znaków ciągu Unicode
- 29. _T() zmiany makr dla danych znaków UNICODE
- 30. Jak używać znaków Unicode z PIL?
Jeśli spojrzysz na moją odpowiedź, na żądanie dostarczyłem wyszukiwarkę znaków z określonymi właściwościami Unicode za pomocą [mojego skryptu Unichara ] (http://training.perl.com/scripts/unichars). Cieszyć się! – tchrist