2014-07-18 8 views
6

Próbuję zrozumieć, co robi f_regression() w pakiecie wyboru cech. (http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html#sklearn.feature_selection.f_regression)Scikit-learn (Python): co oblicza f_regression()?

Zgodnie z dokumentacją, pierwszym krokiem w f_regression jest następujący:

"1. the regressor of interest and the data are orthogonalized wrt constant regressors." 

Co to linia znaczy dokładnie? Jakie są te stałe regresory?

Dzięki!

Odpowiedz

6

Oznacza to, że średnia jest odejmowana od obu zmiennych.

Stały regresor to wektor pełen tych. To, co ten wektor może wyjaśnić w twoich danych, jest następnie odejmowane. Prowadzi to do wektora z sumą zerową, to jest do zmiennej centrowanej.

To, co w rzeczywistości oblicza, to korelacja, iloczyn skalarny między zmiennymi wyśrodkowanymi i odpowiednio przeskalowanymi.

Wynikowy wynik jest funkcją tej wartości i stopni swobody, tj. Wymiarów wektorów. Im wyższy wynik, tym bardziej prawdopodobne jest, że zmienne są powiązane.

Powiązane problemy