Interesuje mnie python mining
zestawów danych zbyt dużych, aby usiąść w pamięci RAM, ale siedząc w jednym HD.Pythonowe narzędzia do obliczeń out-of-core/data mining
Rozumiem, że mogę wyeksportować dane jako pliki hdf5
, używając pytables
. Również numexpr
pozwala na podstawowe podstawowe obliczenia.
Co będzie dalej? Mini-batchowanie, gdy jest to możliwe, i poleganie na algebrze liniowej powoduje dekompozycję obliczeń, gdy nie można zastosować mini-grupowania?
Czy są jakieś narzędzia wyższego poziomu, które przeoczyłem?
Dzięki za spostrzeżenia,
Dzięki za odpowiedź Denis. Wygląda na to, że skilearn ma mini-batching facilities. Właściwie szukam najbardziej racjonalnego sposobu radzenia sobie z pozaprocesowym uczeniem się mapy podrzędnej - zmniejszania rozmiaru. Szczególnie staram się zrozumieć względne zalety hdf5, sql, nosql. – user17375
Pytanie Zelazny7 o duże ilości danych i pracy jest lepsze, ponieważ jest konkretne i dostaje lepsze odpowiedzi – denis