Numpy ładowanie csv Zbyt powolne w porównaniu do Matlab

Wysłałem to pytanie, ponieważ zastanawiałem się, czy zrobiłem coś strasznie złego, aby uzyskać ten wynik.Numpy ładowanie csv Zbyt powolne w porównaniu do Matlab

Mam plik CSV średniej wielkości i próbowałem użyć numpy do załadowania pliku. Dla ilustracji, zrobiłem plik przy użyciu Pythona:

import timeit 
import numpy as np 

my_data = np.random.rand(1500000, 3)*10 
np.savetxt('./test.csv', my_data, delimiter=',', fmt='%.2f')

A potem próbowałem dwie metody: numpy.genfromtxt, numpy.loadtxt

setup_stmt = 'import numpy as np' 
stmt1 = """\ 
my_data = np.genfromtxt('./test.csv', delimiter=',') 
""" 
stmt2 = """\ 
my_data = np.loadtxt('./test.csv', delimiter=',') 
""" 

t1 = timeit.timeit(stmt=stmt1, setup=setup_stmt, number=3) 
t2 = timeit.timeit(stmt=stmt2, setup=setup_stmt, number=3)

A wynik pokazuje, że t1 = 32,159652940464184, t2 = 52.00093725634724.
Jednak, gdy próbowałem za pomocą Matlaba:

tic 
for i = 1:3 
    my_data = dlmread('./test.csv'); 
end 
toc

Wynik pokazuje: Czas jest 3,196465 sekundy.

Rozumiem, że mogą występować pewne różnice w szybkości ładowania, ale:

Jest to o wiele więcej niż się spodziewałem;
Czy to nie jest tak, że plik np.loadtxt powinien być szybszy niż np.genfromtxt?
Nie próbowałem jeszcze modułu Pythona csv, ponieważ ładowanie pliku csv jest naprawdę częstą czynnością, którą robię, a także z modułem CSV, kodowanie jest trochę pełne gadek ... Ale z chęcią wypróbuję, jeśli to jest jedyny sposób. Obecnie jestem bardziej zaniepokojony tym, czy robię coś złego.

Wszelkie dane wejściowe będą mile widziane. Z góry dziękuję!

Źródło

2013-08-15 Yuxiang Wang

Tak, czytanie csv pliki do numpy jest dość powolne. Na ścieżce kodu jest dużo czystego Pythona. Te dni, nawet gdy używam czystej numpy nadal korzystać pandas do IO:

>>> import numpy as np, pandas as pd 
>>> %time d = np.genfromtxt("./test.csv", delimiter=",") 
CPU times: user 14.5 s, sys: 396 ms, total: 14.9 s 
Wall time: 14.9 s 
>>> %time d = np.loadtxt("./test.csv", delimiter=",") 
CPU times: user 25.7 s, sys: 28 ms, total: 25.8 s 
Wall time: 25.8 s 
>>> %time d = pd.read_csv("./test.csv", delimiter=",").values 
CPU times: user 740 ms, sys: 36 ms, total: 776 ms 
Wall time: 780 ms

Alternatywnie, w dość proste sprawy jak ten, można użyć coś co Joe Kington napisał here:

>>> %time data = iter_loadtxt("test.csv") 
CPU times: user 2.84 s, sys: 24 ms, total: 2.86 s 
Wall time: 2.86 s

jest też textreader biblioteka Warrena Weckesser jest w przypadku pandas jest zbyt ciężki zależność:

>>> import textreader 
>>> %time d = textreader.readrows("test.csv", float, ",") 
readrows: numrows = 1500000 
CPU times: user 1.3 s, sys: 40 ms, total: 1.34 s 
Wall time: 1.34 s

Źródło

2013-08-15 19:20:47 DSM

Dziękuję bardzo! Pd.read_csv działa doskonale dla mnie - w rzeczywistości skończyło się tylko w połowie czasu, który zajęło MATLAB! A także dzięki za dwie inne bardzo pouczające metody o mniejszej wadze. –

Jeśli chcesz po prostu zapisać i odczytać tablicę numpy jej znacznie lepiej, aby zapisać go jako plik binarny binarny lub sprężonego w zależności od rozmiaru:

my_data = np.random.rand(1500000, 3)*10 
np.savetxt('./test.csv', my_data, delimiter=',', fmt='%.2f') 
np.save('./testy', my_data) 
np.savez('./testz', my_data) 
del my_data 

setup_stmt = 'import numpy as np' 
stmt1 = """\ 
my_data = np.genfromtxt('./test.csv', delimiter=',') 
""" 
stmt2 = """\ 
my_data = np.load('./testy.npy') 
""" 
stmt3 = """\ 
my_data = np.load('./testz.npz')['arr_0'] 
""" 

t1 = timeit.timeit(stmt=stmt1, setup=setup_stmt, number=3) 
t2 = timeit.timeit(stmt=stmt2, setup=setup_stmt, number=3) 
t3 = timeit.timeit(stmt=stmt3, setup=setup_stmt, number=3) 

genfromtxt 39.717250824 
save 0.0667860507965 
savez 0.268463134766

Źródło

2013-08-15 19:19:47 Daniel

Dziękuję Ophion! To jest świetna odpowiedź i naprawdę przydatna - korzystam z cPickle, ale teraz zdałem sobie sprawę, że np.savez jest szybszy i bardziej kompaktowy niż cPickle, o ile używany jest tylko ndarray. Nie zaznaczyłem "zaakceptuj", ponieważ w tym pytaniu próbowałem odczytać dane z danych eksperymentalnych zapisanych przez LabVIEW. Ale wciąż, dziękuję bardzo! –

Wierzę, że to powinno być wybrane jako poprawna odpowiedź! Dziękujemy @Ophion – Amir

Być może lepiej jest ustawić prosty kod c, który konwertuje dane na binarne i "numpy" odczytuje plik binarny. Mam plik CSV o pojemności 20 GB do odczytania z danymi CSV będącymi mieszaniną int, double, str. Numpy read-to-array struktur zajmuje więcej niż godzinę, podczas gdy zrzut do pliku binarnego trwa około 2 minuty, a ładowanie do numpy zajmuje mniej niż 2 sekundy!

Mój konkretny kod, na przykład, jest dostępny here.

Źródło

2015-06-25 13:05:03 Arvind

Dobre wyniki. Rozważ upuszczenie przykładowych kodów dla innych. –

Zrobione, dziękuję za polecenie. – Arvind

FWIW wbudowany moduł CSV działa świetnie i naprawdę nie jest aż tak gadatliwy.

moduł csv:

%%timeit 
with open('test.csv', 'r') as f: 
    np.array([l for l in csv.reader(f)]) 


1 loop, best of 3: 1.62 s per loop

np.loadtext:

%timeit np.loadtxt('test.csv', delimiter=',') 

1 loop, best of 3: 16.6 s per loop

pd.read_csv:

%timeit pd.read_csv('test.csv', header=None).values 

1 loop, best of 3: 663 ms per loop

Osobiście lubię pandy read_csv ale stosując moduł csv jest miło, gdy używam czystej numpy.

Źródło

2016-05-05 00:36:08 pbreach

Wiem, że to stare pytanie, ale jeśli nadal używasz czystej numpy, nadal możesz używać pand dla IO, a następnie użyć 'pd.DataFrame.values, aby wyodrębnić tablicę numpy. – Jakub

Numpy ładowanie csv Zbyt powolne w porównaniu do Matlab

Odpowiedz

Powiązane problemy