Mam następującą ramkę danych pandy Top15
:
Tworzę kolumnę, która szacuje liczbę cytowanych dokumentów na osobę:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Chcę poznać korelację między liczbą cytowanych dokumentów na mieszkańca a podażą energii na mieszkańca. Więc używam .corr()
metody (korelacja Pearsona):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Chcę zwrócić jedną liczbę, ale wynik jest taki:
.corr
bezpośrednio do swojej ramki danych, zwróci ona wszystkie korelacje parami; dlatego następnie obserwujesz jedynki na przekątnej swojej macierzy (każda kolumna jest ze sobą doskonale skorelowana). Zobacz moją edycję poniżej.