Jestem nowym użytkownikiem R, próbując odejść od SAS. Zadaję tutaj to pytanie, ponieważ czuję się trochę sfrustrowany wszystkimi pakietami i źródłami dostępnymi dla R, i nie mogę sprawić, żeby to działało głównie ze względu na rozmiar danych.Jak wypróbować dużą bazę danych i zaimplementować K-średnie i K-nn w R?
mam następujące:
tabeli o nazwie źródła w lokalnej bazie danych MySQL z 200 funkcji predykcyjnych i jednej zmiennej klasy. Stół ma 3 miliony rekordów i ma pojemność 3 GB. Liczba instancji na klasę nie jest równa.
chcę:
- losowo próbki źródłowej bazy danych, aby stworzyć mniejszy zbiór danych o z równej liczby wystąpień w każdej klasie.
- Podziel próbkę na zestaw szkoleniowy i testowy.
- Preformowanie k-średnich w zestawie treningowym w celu ustalenia k centroidów na klasę.
- Preforma k-NN klasyfikacji danych testowych za pomocą centroidów.
Witamy w So! Proponuję: pakiet ** RMysqlite ** do wyodrębnienia danych, * próbka * funkcja (pakiet ** base **) do próbkowania! * funkcja kmeans * (pakiet ** baza)! * knn * funkcja (** klasa ** pakiet) – agstudy
Jak obsługiwać duże dane? Problem z bazą danych, wstępne próbkowanie jest przechowywane w pamięci. Masz tylko 4GB pamięci RAM. – erichfw
Spróbuj użyć mechanizmu db do przeprowadzenia losowego wyboru: http://stackoverflow.com/q/580639/269476. – James