Piszę aplikację java; ale utknąłem w tym punkcie.Aby podzielić tylko chińskie znaki w java
Zasadniczo mam ciąg znaków chińskich z również kilka możliwych łacińskich znaków lub numerów, powiedzmy:
查詢促進民間參與公共建設法(210BOT法).
chcę podzielić te chińskie znaki z wyjątkiem łaciny lub numerów jak „bot” powyżej. Tak, w końcu będę mieć tego rodzaju listy:
[ 查, 詢, 促, 進, 民, 間, 參, 與, 公, 共, 建, 設, 法, (, 210, BOT, 法, ), ., ]
Jak mogę rozwiązać ten problem (dla Java)?
Jako rozszerzenie, wierzę klasę znaków w regexp. obejmują również powyższe zakresy unicode. –
Niezupełnie, jeśli chcesz również przechwycić grupy cyfr/liter/łączników/cokolwiek innego. Parser oparty na stosie jest lepszym narzędziem do tego rodzaju pracy. – BalusC
Czy to działa również w języku japońskim i koreańskim? –