Mam arabski ciąg z angielskim tekstem i znakami interpunkcyjnymi. Potrzebuję filtrować tekst arabski i próbowałem usuwać znaki interpunkcyjne i angielskie za pomocą żądła. Jednak straciłem odstępy między arabskimi słowami. Gdzie się mylę?Jak usunąć tekst w języku angielskim z łańcucha arabskiego w python?
import string
exclude = set(string.punctuation)
main_text = "وزارة الداخلية: لا تتوفر لدينا معلومات رسمية عن سعوديين موقوفين في ليبيا http://alriyadh.com/1031499"
main_text = ''.join(ch for ch in main_text if ch not in exclude)
[output after this step="وزارة الداخلية لا تتوفر لدينا معلومات رسمية عن سعوديين موقوفين في ليبيا httpalriyadhcom1031499]"
n = filter(lambda x: x not in string.printable, n)
print n
وزارةالداخليةلاتتوفرلدينامعلوماترسميةعنسعوديينموقوفينفيليبيا
Jestem w stanie usunąć interpunkcję i tekst w języku angielskim, ale straciłem odstęp między słowami. Jak mogę zachować każde słowo?