poważne problemy z pamięcią czytanie w pliku csv przy użyciu numpy

złapałem Track1 zestawu danych KDD z Kaggle i postanowił załadować ~ 2,5 GB 3-kolumny pliku CSV do pamięci, 16 GB na moim instancji EC2 wysokiej Pamięć:poważne problemy z pamięcią czytanie w pliku csv przy użyciu numpy

data = np.loadtxt('rec_log_train.txt')

sesja Pythona wyczerpała całą moją pamięć (100%), a następnie została zabita.

Potem czytałem ten sam plik używając R (via read.table) i użyłem mniej niż 5 GB pamięci RAM, który zwinął się do mniej niż 2 GB po tym, jak zadzwoniłem do garbage collectora.

Moje pytanie brzmi: dlaczego to się nie powiodło pod numpy i jaki jest właściwy sposób odczytu pliku do pamięci. Tak, mogę używać generatorów i unikać problemu, ale to nie jest celem.

Źródło

2012-04-22 vgoklani

powiązane http://stackoverflow.com/questions/8956832/python-out-of-memory-on-large-csv-file-numpy – Anycorn

Jeśli zrobi się pojedyncza precyzja, 'np.fromfile/np.loadtxt (dtype) = np.float32) 'zajmie mniej pamięci, następnie' X = X.astype (np.float64) 'po zakończeniu. – denis

import pandas, re, numpy as np 

def load_file(filename, num_cols, delimiter='\t'): 
    data = None 
    try: 
     data = np.load(filename + '.npy') 
    except: 
     splitter = re.compile(delimiter) 

     def items(infile): 
      for line in infile: 
       for item in splitter.split(line): 
        yield item 

     with open(filename, 'r') as infile: 
      data = np.fromiter(items(infile), float64, -1) 
      data = data.reshape((-1, num_cols)) 
      np.save(filename, data) 

    return pandas.DataFrame(data)

to czyta w pliku 2,5 GB, a serializuje macierz wyjściową. Plik wejściowy jest odczytywany "leniwie", więc nie są budowane pośrednie struktury danych i używana jest minimalna ilość pamięci. Początkowe ładowanie trwa długo, ale każde kolejne obciążenie (zserializowanego pliku) jest szybkie. Proszę, daj mi, jeśli masz wskazówki!

Źródło

2012-04-22 16:38:34 vgoklani

Jeśli podajesz liczbę kolumn a priori, dlaczego nie zrobić czegoś takiego jak to: https://gist.github.com/2465280? Na marginesie, aby utworzyć tablicę z generatora, użyj 'np.fromiter'. –

zaktualizowana! Dziękuję bardzo! – vgoklani

Można spróbować numpy.fromfile

http://docs.scipy.org/doc/numpy/reference/generated/numpy.fromfile.html

Źródło

2012-04-22 03:06:47 Akavall

Wypróbuj plik recfile na teraz: http://code.google.com/p/recfile/. Jest kilka wysiłków, które znam, aby stworzyć szybki czytnik plików C/C++ dla NumPy; jest na mojej krótkiej liście do pandy, ponieważ powoduje takie problemy. Warren Weckesser ma również projekt tutaj: https://github.com/WarrenWeckesser/textreader. Nie wiem, który z nich jest lepszy, wypróbuj je oba?

Źródło

2012-04-22 21:53:55

poważne problemy z pamięcią czytanie w pliku csv przy użyciu numpy

Odpowiedz

Powiązane problemy