Say mam kategoryczny funkcji, kolor, który przyjmuje wartościCzy można przeżyć losowy las bezpośrednio obsługiwać cechy kategoryczne?
[ „czerwony”, „niebieski”, „zielony”, „pomarańczowy”]
i chcę go używać do przewidzenia coś w przypadkowym lesie. Jeśli je zaszyfruję (tzn. Zmienię na cztery fałszywe zmienne), jak mogę powiedzieć sklearn, że cztery zmienne fałszywe są naprawdę jedną zmienną? W szczególności, gdy sklearn wybiera losowo elementy do wykorzystania w różnych węzłach, powinno zawierać albo czerwone, niebieskie, zielone i pomarańczowe manekiny, albo nie powinno zawierać żadnego z nich.
Słyszałem, że nie ma sposobu, aby to zrobić, ale wyobrażam sobie, że musi istnieć sposób radzenia sobie ze zmiennymi kategorycznymi bez arbitralnego kodowania ich jako liczb lub czegoś w tym stylu.
To była bardzo przydatna i bardzo długotrwała prośba o ulepszenie na sklearn od 2014 roku. Jednym z rozważań było to, czy powinny one nadać priorytet wdrażaniu nowej [pandy kategorialnej] (http://pandas.pydata.org/pandas-docs/stable) /categorical.html) lub generic numpy. – smci