2012-09-27 13 views
7

Testowanie silnika regex PHP, widzę, że uważa tylko [0-9A-Za-z_] za znaki słowne. Litery języków innych niż ASCII, takie jak hebrajski, nie są dopasowywane jako znaki słowne z [\w]. Czy są jakieś sekwencje specjalne wyrażenia regularnego PHP lub Perla, które będą pasować do litery w dowolnym języku? Mogę dodać zakresy dla każdego alfabetu, którego oczekuję, ale użytkownicy zawsze zaskakują nas niespodziewanymi językami!Regex dla znaków słownych w dowolnym języku

Należy zauważyć, że nie jest to filtrowanie bezpieczeństwa, ale raczej tokenizacja tekstu.

Odpowiedz

1

Spróbuj \p{L}. Pasuje do dowolnego rodzaju litery z dowolnego języka. Jeśli nie chcesz użyć zestawu znaków [].

Powiązane problemy