본문 바로가기
파이썬/scipy , 이변량분석

파이썬 기초 scipy.stats 상관계수와 p-value 구하기-pearsonr(),corr() 및 시각화

by 큰고양2 2023. 9. 2.

spst.pearsonr()

 

import scipy.stats as spst

로 scipy.stats를 임포트를 해준다

 

spst.pearsonr( 데이터1 , 데이터2 )

형태로 해당 숫자형 데이터들의 상관계수와 p-value를 구할 수 있다

해당 함수를 사용하면 튜플형태로 (상관계수, p-value)가 반환된다

 

ex)

spst.pearsonr(air['Temp'], air['Ozone'])

출력 : PearsonRResult(statistic=0.6833717861490114, pvalue=2.197769800200284e-22)

 

데이터프레임.corr()

데이터 프레임.corr() 매소드를 사용하면 해당 데이터프레임의 숫자형 변수끼리의

상관계수를 한 번에 구할 수 있다

ex)

air.corr()

 

sns.heatmap으로 시각화하기

sns.heatmap(데이터프레임.corr(),
            annot = True,            # 숫자(상관계수) 표기 여부
            fmt = '.2f',             # 숫자 포멧 : 소수점 표기 정하기
            cmap = 'Reds',       # 칼라맵 
            vmin = -1, vmax = 1)     # 값의 최소, 최대값

으로 시각화가 가능하다

각 옵션들은 원하는 대로 조정해도 된다

ex)

sns.heatmap(air.corr(),
            annot = True,         
            fmt = '.2f',           
            cmap = 'Reds',      
            vmin = -1, vmax = 1)   
plt.show()