2015-05-22 8 views
7

W moim problemie mam bardzo duży zbiór danych, który jest poza moją pamięcią. Chciałbym trenować mój model przy użyciu danych dyskowych, takich jak HDF5 lub podobne. Czy sklearn obsługuje to, czy jest jakaś inna alternatywa?Czy istnieje sposób na wyćwiczenie modelu sklearn na podstawie danych dyskowych, takich jak HDF5?

+0

To pytanie zakłada, że ​​w zasadzie wszystkie modele można trenować bez posiadania wszystkich danych w pamięci. Wątpię, czy tak jest. – cel

+1

Jest to całkowicie możliwe, na przykład Caffe używa struktury podobnej do bazy danych do pobierania danych z dysku podczas treningu. – erogol

+0

Ogrisel udzielił odpowiedzi, ale czy znalazłeś jakieś dodatkowe sposoby? Szukam tego samego. – KobeJohn

Odpowiedz

4

To, o co prosisz, nazywa się uczeniem typu out-core lub streaming. Jest to możliwe tylko w przypadku podzbioru modeli naukowego uczenia się, które implementują metodę przyrostowego dopasowania do metody partial_fit.

Istnieje example in the documentation. W szczególności nie ma konkretnego narzędzia do dopasowania modeli do danych w HDF5, ale można go dostosować do pobierania danych z dowolnego zewnętrznego źródła danych (np. Danych HDF5 na dysku lokalnym lub bazy danych w sieci, na przykład przy użyciu adaptera pandas SQL).

Powiązane problemy