Jak radzić sobie z brakującymi wartościami w zestawach danych przed zastosowaniem algorytmu uczenia maszynowego ??.Jak radzić sobie z brakami NaN w uczeniu maszynowym w pythonie
Zauważyłem, że nie jest mądrze rzucić brakujące wartości NAN. Zwykle robię interpolację (średnia obliczeniowa) za pomocą pand i uzupełniam dane, które są rodzajem pracy i poprawiają dokładność klasyfikacji, ale może nie być najlepszą rzeczą do zrobienia.
Oto bardzo ważne pytanie. Jaki jest najlepszy sposób na obsługę brakujących wartości w zestawie danych?
Na przykład, jeśli widzisz ten zestaw danych, tylko 30% ma oryginalne dane.
Int64Index: 7049 entries, 0 to 7048
Data columns (total 31 columns):
left_eye_center_x 7039 non-null float64
left_eye_center_y 7039 non-null float64
right_eye_center_x 7036 non-null float64
right_eye_center_y 7036 non-null float64
left_eye_inner_corner_x 2271 non-null float64
left_eye_inner_corner_y 2271 non-null float64
left_eye_outer_corner_x 2267 non-null float64
left_eye_outer_corner_y 2267 non-null float64
right_eye_inner_corner_x 2268 non-null float64
right_eye_inner_corner_y 2268 non-null float64
right_eye_outer_corner_x 2268 non-null float64
right_eye_outer_corner_y 2268 non-null float64
left_eyebrow_inner_end_x 2270 non-null float64
left_eyebrow_inner_end_y 2270 non-null float64
left_eyebrow_outer_end_x 2225 non-null float64
left_eyebrow_outer_end_y 2225 non-null float64
right_eyebrow_inner_end_x 2270 non-null float64
right_eyebrow_inner_end_y 2270 non-null float64
right_eyebrow_outer_end_x 2236 non-null float64
right_eyebrow_outer_end_y 2236 non-null float64
nose_tip_x 7049 non-null float64
nose_tip_y 7049 non-null float64
mouth_left_corner_x 2269 non-null float64
mouth_left_corner_y 2269 non-null float64
mouth_right_corner_x 2270 non-null float64
mouth_right_corner_y 2270 non-null float64
mouth_center_top_lip_x 2275 non-null float64
mouth_center_top_lip_y 2275 non-null float64
mouth_center_bottom_lip_x 7016 non-null float64
mouth_center_bottom_lip_y 7016 non-null float64
Image 7049 non-null object
"Jaki jest najlepszy sposób radzenia sobie z brakującymi wartościami w zestawie danych?" "I twierdził, że odpowiedź na to pytanie jest zarówno zależna od sytuacji, jak i oparta na opiniach. – CoryKramer
Można albo upuścić wiersze, które mają brakujące wartości, ale może to zmniejszyć wydajność, albo ustawić brakujące wartości na pewną wartość, która nie ma wpływu na przewidywanie, ale może to nadal być przekrzywione dla modelu, jeśli masz wiele brakujących wartości, to naprawdę zależy . Możesz użyć średniej/mediany, ale będziesz musiał zmierzyć wydajność wszystkich podejść i zobaczyć, co jest najlepsze, zależy to od tego, czy w tych funkcjach jest jakaś wartość i jaki model wybierzesz – EdChum