Moje dane składają się z kombinacji cech ciągłych i kategorycznych. Poniżej znajduje się niewielki fragment jak moje dane wygląda w formacie csv (traktować je jako dane zebrane przez super sieci sklepów, która funkcjonuje do sklepów w różnych miastach)Jak dokonać dyskretyzacji atrybutów ciągłych w sklearn?
city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_revenue
NY ,54504 , 3506908 ,3006 ,INDOOR , 8000091
CH ,44504 , 2505901 ,4098 ,INDOOR , 4000091
HS ,50134 , 3206911 ,1800 ,KIOSK , 7004567
NY ,54504 , 3506908 ,1000 ,KIOSK , 2000091
Ją widać, że avg_income_in_city, square_feet_of_store_area i avg_revenue są wartościami ciągłymi, gdy jako miasto, typ sklepu itp. są klasy kategoryczne (i kilka innych, których tu nie pokazałem, aby zachować zwięzłość danych).
Chcę modelować dane w celu przewidywania przychodów. Pytanie brzmi: jak "dyskretyzować" wartości ciągłe za pomocą sklearna? Czy sklearn zapewnia jakąkolwiek "gotową" klasę/metodę dyskretyzacji wartości ciągłych? (Tak jak mamy w Orange (np Orange.Preprocessor_discretize danych, metody = orange.EntropyDiscretization())
Dzięki!
nie widzę dlaczego należy bin/dyskretyzacji zmiennych ciągłych. To wyrzuca informacje. –
Sądzę, że zależy to od rodzaju danych, z którymi pracujesz i od tego, w jaki sposób dobre późniejsze mechanizmy są w trakcie wykorzystywania tych informacji. Czasami kwantyzacja wektorowa lub ogólnie tworzenie klastrów jako preprocessing może uczynić reprezentacje o wiele bardziej stabilnymi. – eickenberg