Jak dopasować słowa unicode z rubinem 1.9?

Używam Ruby 1.9 i próbuje dowiedzieć się, który REGEX muszę zrobić to prawda:Jak dopasować słowa unicode z rubinem 1.9?

Encoding.default_internal = Encoding.default_external = 'utf-8' 
"föö".match(/(\w+)/u)[1] == "föö" 
# => false

Źródło

2010-08-26 Reactormonk

Konwertuj oba ciągi na ten sam kod Unicode, niż można dopasować. Za pomocą Iconv możesz skonwertować ciąg znaków do określonego unicode. –

Dodano domyślne kodowanie. Nadal nie działa ... – Reactormonk

Spróbuj umieścić komentarz "# kodowanie utf-8" na początku skryptu i upewnij się, że plik skryptu to utf-8. – Nakilon

# encoding=utf-8 
p "föö".match(/\p{Word}+/)[0] == "föö"

Źródło

2010-08-26 15:18:27 steenslag

oh, kocham cię! – Hock

Szalony, że musisz oznaczyć kod źródłowy jako UTF8, aby regexp zachowywał się poprawnie z właściwym kodowaniem. Wielkie dzięki ! – demental

Dobra dokumentacja do tego można znaleźć tutaj: http://www.ruby-doc.org/core-1.9.3/Regexp.html#label-Character+Properties –

http://www.ruby-forum.com/topic/208777

http://www.ruby-forum.com/topic/210770

może mieć wskazówki dla Ciebie.

Można również użyć (udokumentowany) \p{L} rzeczowe Ex:

$ ruby -ve "p '℉üüü' =~ /\p{L}/" 
ruby 1.9.2p0 (2010-08-18 revision 29036) [x86_64-linux] 
1

Źródło

2010-08-26 14:53:06 rogerdpack

Można manually turn on Unicode matching użyciu wewnątrz (?u) składnię:

"föö".match(/(?u)(\w+)/)[1] == "föö" 
# => true

Jednak użycie Unicode Property Składnia (Odpowiedź Steenslaga) lub POSIX Brackets Składnia jest lepszym stylem, ponieważ oba automatycznie automatycznie respektują punkty kodowe Unicode:

"föö".match(/(\p{word}+)/)[1] == "föö" 
# => true 

"föö".match(/([[:word:]]+)/)[1] == "föö" 
# => true

Aby uzyskać więcej informacji o dopasowywaniu znaków Unicode w wyrażeniach regularnych w języku Ruby, zobacz artykuł .

Źródło

2016-06-24 14:08:17

Jak dopasować słowa unicode z rubinem 1.9?

Odpowiedz

Powiązane problemy