Znalazłem this pytanie, ale usuwane są również wszystkie ważne znaki utf-8
(zwraca mi pusty ciąg znaków, podczas gdy istnieją ważne znaki utf-8
plus znaki kontrolne). Jak czytałem o utf-8
, nie ma określonego zakresu dla control characters
i każdy zestaw znaków ma swój własny control characters
.Usuwanie znaków sterujących z ciągu UTF-8
Jak mogę zmienić rozwiązanie above, aby usunąć tylko control characters
?
Wiesz, za pomocą kilku linii kodu (co dokładnie jest UTF-8 ciąg?) I mała próbka tekstu to zaczną wyglądać jak prawdziwa pytanie. –
prawdziwy ciąg to arabski ciąg 'utf-8' z pewnymi średnikami i znakami kontrolnymi. Podałem link do najbardziej podobnego pytania: http://stackoverflow.com/questions/20762/how-do-you-remove-invalid-hexadecimal-characters-od-an-xml-based-data-source-pr – Xaqron
Jak definiujesz znaki kontrolne? Te z codepoint '<32'? – CodesInChaos