Próbuję obliczyć macierz korelacji kilku wartości. Wartości te obejmują pewne wartości "nan". Używam numpy.corrcoef. Dla elementu (i, j) wyjściowej macierzy korelacji chciałbym, aby korelacja została obliczona przy użyciu wszystkich wartości, które istnieją zarówno dla zmiennej i, jak i zmiennej j.numpy corrcoef - macierz korelacji obliczeniowej podczas ignorowania brakujących danych
To co mam teraz:..
In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]:
array([[ 1. , nan, nan, -0.10998411],
[ nan, nan, nan, nan],
[ nan, nan, nan, nan],
[-0.10998411, nan, nan, 1. ]])
Zbyt wiele Nan :(
Nie pozwala mi edytować posta, ale pierwszy wiersz w bloku kodu powinien brzmieć: "... jak pd", zamiast "... jak np". – WindChimes
Epicka odpowiedź! Pomogłeś mi poradzić sobie z brakującymi danymi * i * usunąłem zagnieżdżoną pętlę for z mojego kodu. Dzięki! –