Jeśli mam duży zbiór danych w R, w jaki sposób mogę pobrać losową próbkę danych, biorąc pod uwagę dystrybucję oryginalnych danych, szczególnie jeśli dane są przekrzywione i tylko 1% należą do mniejszej klasy i chcę wziąć stronniczą próbkę danych?Pobieranie nieproporcjonalnej próbki z zestawu danych w R
12
A
Odpowiedz
20
Funkcja sample(x, n, replace = FALSE, prob = NULL)
pobiera próbkę z wektora x
o rozmiarze n
. Ta próbka może być z lub bez wymiany, a prawdopodobieństwo wybierając każdy element do próbki mogą być albo taka sama dla każdego elementu lub wektorem powiadomiony przez użytkownika.
Jeśli chcesz pobrać próbkę samych prawdopodobieństw dla każdego elementu z 50 przypadków, wszystko co musisz zrobić, to
n <- 50
smpl <- df[sample(nrow(df), 50),]
Jednakże, jeśli chcesz dać różne prawdopodobieństwa zostanie wybrany do elementów, powiedzmy, że elementy seks jest M ma prawdopodobieństwo 0,25, natomiast te, których seks jest F ma prob 0,75, to sh ould zrobić
n <- 50
prb <- ifelse(sex=="M",0.25,0.75)
smpl <- df[sample(nrow(df), 50, prob = prb),]
Powiązane problemy
- 1. Brakujące wiersze z zestawu danych w R
- 2. pobieranie nazwy ramki danych z ładowania pliku .rda w R
- 3. dokumentowanie zestawu danych z roxygen2
- 4. Pobieranie png z Shiny (R)
- 5. Próbki WPV MVVM z bazą danych
- 6. Ułożenie próbki z bazy danych - Postgresql
- 7. Pobieranie danych z Live Olympic Medal do R
- 8. R: jak wykonać bardziej złożone obliczenia z zestawu danych?
- 9. Pobieranie atrybutów obiektów R w JavaScript
- 10. Pobieranie danych z obiektu ReadableStream?
- 11. Pobieranie danych z pliku XML
- 12. Pobieranie danych z python XML
- 13. Pobieranie danych z plist Info
- 14. Pobieranie optymalnej liczby klastrów w R
- 15. Montowanie zestawu danych z AWS
- 16. Instal R pakiety z github pobieranie master.zip
- 17. Filtrowanie danych w R
- 18. Scalanie dwóch ramek danych w R, które mają wspólne i niepospolite próbki
- 19. AngularJS - Pobieranie danych w domenie
- 20. Ręczne pobieranie i instalowanie pakietów w R
- 21. pobieranie danych z bazy danych jako json w rozruchu wiosennym
- 22. Pobieranie danych z bazy danych Firebase Realtime w systemie Android
- 23. Pobieranie danych boolowskich z atrybutu danych w jquery
- 24. Używanie próbki() o rozmiarze próbki = 1
- 25. łatwe pobieranie wektorów z rzadkim macierzy i tworzenia nowej macierzy z próbki (pyton)
- 26. Czy istnieje odpowiednik Pythona dla funkcji próbki R()?
- 27. jquery.ajax pobieranie wielu danych
- 28. R: Wybieranie wierszy z ramki danych na podstawie zestawu wartości pojawiających się w niektórych kolumnach
- 29. Pobieranie najnowszego powiązanego obiektu dla zestawu obiektów w Peewee
- 30. Losowe pobieranie próbek z Mongo
importować dane, znaleźć wagi dla firmy „poziomy” i niech 'kontrole wyrywkowe zadbać o resztę. Pomoże ci to, jeśli możesz zawęzić swoje pytanie (przynajmniej z przykładowymi danymi - http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example). –
Zobacz także http://stackoverflow.com/questions/2923092/how-do-i-sub-sample-data-by-group-using-ddply –