Przetwarzam dużą liczbę plików CSV w pythonie. Pliki są odbierane od organizacji zewnętrznych i są kodowane za pomocą szeregu kodowań. Chciałbym znaleźć zautomatyzowany sposób, aby usunąć następujące elementy:Usuwanie niedrukowalnych znaków "gremlin" z plików tekstowych
- znaków spoza ASCII
- znaki sterujące
- Null (ASCII 0) znaków
Mam produkt o nazwie „Znajdź i zamień go! " używałoby to wyrażeń regularnych, więc bardzo pomocny byłby sposób rozwiązania powyższego z wyrażeniem regularnym.
Dziękuję
'Pliki są odbierane od organizacji zewnętrznych i są kodowane za pomocą szeregu kodowań" - a te są ... Nie należy ich pytać? Jaki jest twój powiązany z tym produkt? Czego próbujesz użyć danych dla ... Czy naprawdę potrzebujesz Pythona? –
Dobre pytania. Pliki CSV. Kodowanie obejmuje "nieznany" (zgodnie z Find and Replace It!), "Utf-8", "iso-88591-1" i inne. Nie można ich poprosić - zbyt wiele e-maili, zbyt długo. Napisałem już pythona, który zmienia format plików CSV. A skrypt działa w większości przypadków, z wyjątkiem sytuacji, gdy gremliny (które w jakiś sposób równoważą \ r) zepsuć CSV.reader. Usunięcie nie-ascici, jednak zakodowanej, rozwiązałoby mnie. Twoje zdrowie! –
Dziękuję za wszystkie te komentarze. W pośpiechu, aby wykonać pracę, użyłem czegoś o nazwie BBEdit, które usunie "gremliny", takie jak/r znaki zakodowane za pomocą kodowania, którego Python nie rozpoznaje (bez dalszej pracy). Teraz, gdy wiem, jak zidentyfikować te gremliny za pomocą BBEdit, sprawdzę, czy którekolwiek z poniższych rozwiązań robi to samo i zaznacz pierwszą odpowiedź. –