Mam plik csv o rozmiarze [66k, 56k] (wiersze, kolumny). Jest to rzadka matryca. Wiem, że numpy może obsłużyć taką wielkość matrycy. Chciałbym wiedzieć, na podstawie doświadczeń wszystkich, ile funkcji algorytmów uczenia się nauczy się wygodnie?Ile funkcji może obsługiwać nauka naukowa?
Odpowiedz
Zależy od estymatora. Przy tej wielkości modele liniowe nadal dobrze się sprawdzają, podczas gdy maszyny SVM prawdopodobnie będą trwać wiecznie, aby trenować (i zapomnieć o losowych lasach, ponieważ nie będą one obsługiwać rzadkich macierzy).
Osobiście użyłem LinearSVC
, LogisticRegression
i SGDClassifier
z rzadkimi matrycami o wielkości około 300k × 3,3 miliona bez żadnych problemów. Zobacz @ amueller's scikit-learn cheat sheet, aby wybrać odpowiedni kalkulator dla danego zadania.
Pełne ujawnienie: Jestem programistą core-learn-learn.
Niektóre modele liniowe (Regresja, SGD, Bayes) będą prawdopodobnie najlepszym rozwiązaniem, jeśli będziesz musiał często trenować swój model.
Chociaż przed pobiegać żadnych modele można wypróbować następujące
1) Redukcja funkcji. Czy istnieją dane, które można łatwo usunąć? Na przykład, jeśli dane są oparte na tekście lub ocenach, dostępnych jest wiele znanych opcji.
2) Analiza krzywej uczenia. Być może potrzebujesz tylko niewielkiego podzbioru danych, aby wyszkolić model, a następnie pasujesz do danych lub zyskujesz niewielki wzrost dokładności.
Oba podejścia mogą znacznie zmniejszyć wymagane dane treningowe.
- 1. Ile połączeń sieciowych może obsługiwać komputer?
- 2. Ile baz danych może obsługiwać MySQL?
- 3. Ile maksymalnych połączeń może mieć wyrocznia?
- 4. ile danych może obsłużyć wykresy Js
- 5. Ile krawędzi może zawierać DAG?
- 6. Ile równoległych żądań może obsługiwać jedna instancja Pythona z Google App Engine?
- 7. parseInt() notacja naukowa
- 8. Nauka F #
- 9. Nauka PostgreSQL
- 10. Nauka Cappuccino
- 11. Ile funkcji mieszania wymaga mój filtr kwitnienia?
- 12. Ile metod może mieć klasa C#?
- 13. Ile warunków może spełnić, jeśli sprawdzenie dla
- 14. Ile danych może zapisać przeglądarka w localStorage
- 15. Ile szczegółów sprzętowych może aplet Java odkryć?
- 16. Ile sposobów może zakończyć się program java?
- 17. jak obsługiwać wyjątek w funkcji iskry()?
- 18. Java DecimalFormat Notacja naukowa Pytanie
- 19. Nauka SDL w C
- 20. Nauka gcc internals
- 21. Czy SignalR może obsługiwać nieodebrane wiadomości?
- 22. Scrollview może obsługiwać tylko jedno bezpośrednie dziecko
- 23. Czy sys.argv może obsługiwać opcjonalne argumenty?
- 24. HorizontalScrollView może obsługiwać tylko jedno bezpośrednie dziecko
- 25. Nauka Haskell - jak uprościć wyrażenia?
- 26. Nauka DirectX w 2013
- 27. Nauka podstaw UIScrollView
- 28. Nauka J/K/APL
- 29. Nauka programowania języków programowania
- 30. Nauka używania Subversion
Zadanie, nad którym pracuję, to regresja. Ale byłoby dobrze wiedzieć, jak ogólnie sklearn obsługuje dane wielowymiarowe. – viper