Alternatywy dla marynowania

Próbuję serializować duże (~ 10 ** 6 wierszy, każde z ~ 20 wartościami) listy, które będą używane później przeze mnie (więc brak bezpieczeństwa dla marynarzy nie jest problemem).Alternatywy dla marynowania

Każdy wiersz listy jest krotką wartości pochodzących z pewnej bazy danych SQL. Do tej pory widziałem datetime.datetime, ciągi, liczby całkowite i NoneType, ale może ewentualnie musiałem obsługiwać dodatkowe typy danych.

Do serializacji rozważałem marynowanie (cPickle), json i zwykły tekst - ale tylko pikle zapisuje informacje o typie: json nie może serializować datetime.datetime, a zwykły tekst ma swoje oczywiste wady.

Jednak cPickle jest dość wolny w przypadku tak dużych danych i szukam szybszej alternatywy.

Wszelkie sugestie?

Dzięki!

Źródło

2012-03-27 Guy Adini

Czy rozważałeś wyrzucenie go do bazy danych SQLite? – rmmh

Właściwie - nie mam. Może być najprostszy ... –

Myślę, że powinieneś dać PyTables spojrzenie. To powinno być śmiesznie szybkie, przynajmniej szybsze niż używanie RDBMS, ponieważ jest bardzo luźne i nie nakłada żadnych ograniczeń odczytu/zapisu, a także dostaje lepszy interfejs do zarządzania swoimi danymi, przynajmniej w porównaniu do ich marynowania.

Źródło

2012-03-27 20:49:14

Wygląda obiecująco. Dam ci szansę - dzięki! –

Zwykle serializuje się do zwykłego tekstu (* .csv), ponieważ znalazłem go najszybciej. Moduł csv działa bardzo dobrze. Zobacz http://docs.python.org/library/csv.html

Jeśli masz do czynienia z unikodem dla swoich ciągów, sprawdź przykłady UnicodeReader i UnicodeWriter na końcu.

Jeśli serializuje się do własnego użytku w przyszłości, wydaje mi się, że wystarczy wiedzieć, że w kolumnie csv jest taki sam typ danych (np. Ciąg zawsze znajduje się w kolumnie 2).

Źródło

2012-03-27 20:51:21

To nie jest dobre dla mnie - ponieważ nie zachowuje informacji o typie, muszę zapętlić dane i przekonwertować je, co jest bardzo powolne (przynajmniej w mojej implementacji, używając listowego zrozumienia ze zrozumieniem listy). –

Pickle jest rzeczywiście dość szybki, o ile nie używasz (domyślnie) protokołu ASCII. Po prostu upewnij się, że zrzutu używasz protocol=pickle.HIGHEST_PROTOCOL.

Źródło

2012-08-23 15:23:57

Należy zauważyć, że dla 'python3' domyślny format jest faktycznie binarny, zgodnie z dokumentami. http://docs.python.org/3.4/library/pickle.html?highlight=pickle#pickle – Seanny123

Semantycznie lepszą alternatywą jest 'protocol = pickle.HIGHEST_PROTOCOL' –

Dzięki, @moose! Zaktualizowano z 'protocol = -1'. –

bufory Protocol są elastyczne, wydajne zautomatyzowany mechanizm szeregowania danych strukturalną - myśleć XML, ale mniejsze, szybsze i prostsze.

przewagę nad XML:

są prostsze

są 3 do 10 razy mniejsze

są 20 do 100 razy szybciej

są mniej dwuznaczne

wygenerować klas dostępu do danych, które są łatwiejsze używać programowo

https://developers.google.com/protocol-buffers/docs/pythontutorial

Źródło

2013-07-26 14:49:08 gustavodiazjaimes

Protocol Buffer - npstosowane w Caffe; utrzymuje wpisać informacje, ale trzeba postawić dość dużo wysiłku w to w porównaniu z marynowane
MessagePack: Zobacz python package - obsługuje strumieniowe (source)
BSON: patrz python package docs

Źródło

2015-06-16 12:12:44

Dla setek tysięcy proste (do JSON-compatible) złożoność obiektów Pythona, znalazłem najlepsze połączenie prostoty, szybkości i wielkości łącząc:

Bije pickle i cPickle opcje o rzędy wielkości.

with gzip.open(filename, 'wb') as f: 
    ubjson.dump(items, f) 


with gzip.open(filename, 'rb') as f: 
    return ubjson.load(f)

Źródło

2018-01-07 17:50:39 Apalala

Alternatywy dla marynowania

Odpowiedz

Powiązane problemy