Jak odczytać zawartość pliku z pliku?

Korzystając z Python3, należy liczyć się z os.walk katalogiem plików, przeczytać je w obiekcie binarnym (ciąg znaków?) I wykonać na nich dalsze przetwarzanie. Najpierw jednak: Jak odczytać plik (i) wyniki os.walk?Jak odczytać zawartość pliku z pliku?

# NOTE: Execute with python3.2.2 

import os 
import sys 

path = "/home/user/my-files" 

count = 0 
successcount = 0 
errorcount = 0 
i = 0 

#for directory in dirs 
for (root, dirs, files) in os.walk(path): 
# print (path) 
print (dirs) 
#print (files) 

for file in files: 

    base, ext = os.path.splitext(file) 
    fullpath = os.path.join(root, file) 

    # Read the file into binary? -------- 
    input = open(fullpath, "r") 
    content = input.read() 
    length = len(content) 
    count += 1 
    print (" file: ---->",base,"/",ext," [count:",count,"]", "[length:",length,"]") 
    print ("fullpath: ---->",fullpath)

BŁĄD:

Traceback (most recent call last): 
    File "myFileReader.py", line 41, in <module> 
    content = input.read() 
    File "/usr/lib/python3.2/codecs.py", line 300, in decode 
    (result, consumed) = self._buffer_decode(data, self.errors, final) 
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 11: invalid continuation byte

Źródło

2011-12-28 DrLou

Aby odczytać plik binarny należy otworzyć plik w trybie binarnym. Zmień

input = open(fullpath, "r")

input = open(fullpath, "rb")

wynikiem read() będzie bajtów() obiektu.

Źródło

2011-12-29 04:29:35

TKS Lennart - tak, to był tajny sos potrzebne. Kinda new to Python3! – DrLou

To nie jest właściwie Python, który jest 3 specyficzny. Pliki binarne powinny być również otwarte z flagą "b" w Pythonie 2. –

Tak, to wszystko wydaje mi się nieco głupie z perspektywy czasu - ale tak się uczymy! Prawdopodobnie myślisz: RTFM! Jeszcze raz dziękuję za pomoc. – DrLou

Ponieważ niektóre pliki są binarne, nie można ich pomyślnie odszyfrować w znaki Unicode, których Python 3 używa do przechowywania wszystkich ciągów znaków w interpretera. Zauważ, że duża zmiana między Python 2 i Python 3 wymaga migracji reprezentacji ciągów znaków do znaków Unicode z ASCII, co oznacza, że każdy znak nie może być po prostu traktowany jako bajt (tak, ciągi tekstowe w Pythonie 3 wymagają 2x lub 4x tyle pamięci do zapisania, co Python 2, ponieważ UTF-8 używa do 4 bajtów na znak).

można więc mieć wiele opcji, które będą zależały od projektu:

ignoruje pliki binarne, filtrując przez rozszerzenie pliku,
odczytać pliki binarne i albo złapać wyjątek dekodowania czy i kiedy to nastąpi, i pominąć ten plik lub użyj jednego z metodą opisaną w tym wątku How can I detect if a file is binary (non-text) in python?

w tym duchu można edytować swoje rozwiązanie po prostu złapać błąd UnicodeDecode i pominąć ten plik.

Bez względu na swoją decyzję, ważne jest, aby pamiętać, że jeśli istnieje szeroki zakres różnych kodowań znaków w plikach w twoim systemie, będziesz musiał określić kodowanie, ponieważ Python 3.0 zakłada, że znaki są zakodowane w UTF -8.

Jako punkt odniesienia, wielka prezentacja na Pythonie 3 I/O: http://www.dabeaz.com/python3io/MasteringIO.pdf

Źródło

2011-12-29 04:56:41

Dzięki za ten link i za komentarze - będą one bardzo przydatne w moim procesie uczenia się. Do tej pory wszystkie pliki wydają się łatwe do odczytania jako pliki binarne. – DrLou

Jak odczytać zawartość pliku z pliku?

Odpowiedz

Powiązane problemy