Mam następujący pandy dataframe Top15
: Zastosowanie .corr uzyskać korelację pomiędzy dwoma kolumnami
utworzyć kolumnę, która szacuje ilość cytowany dokumentów za osobę:
Top15['PopEst'] = Top15['Energy Supply']/Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents']/Top15['PopEst']
I chcą poznać korelację między liczbą dokumentów na mieszkańca na mieszkańca a dostawą energii na mieszkańca. Więc używam metody .corr()
(korelacja Pearsona):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
chcę wrócić jeden numer, ale wynik jest:
Czy ktoś może mi pomóc?
Myślę, że masz rację. Ale czy możesz mi powiedzieć, dlaczego "data.corr (method = 'pearson')" zwraca tylko związek między dostawą energii a energią suppy? –
Nie ma. Powinien zwrócić ci macierz 2x2; pokazujesz jej lewy górny wpis. Jeśli zastosujesz '.corr' bezpośrednio do swojej ramki danych, zwróci ona wszystkie korelacje parami; dlatego obserwujesz 1s na przekątnej swojej matrycy (każda kolumna jest doskonale skorelowana z samą sobą). Zobacz moją edycję poniżej. – Cleb
Proszę rozważyć [akceptowanie] (http://meta.stackexchange.com/a/5235) odpowiedzi, jeśli uważasz, że odpowiedziała na twoje pytanie – MaxU