본문 바로가기
파이썬/scipy , 이변량분석

파이썬 데이터분석 단변량, 이변량 분석 도구 정리

by 큰고양2 2023. 9. 3.

단변량 분석도구

  통계 그래프
숫자 min, max, mean
std, 사분위수
.describe()활용
히스토그램,kdeplot
boxplot
범주 범주별 빈도수
.value_counts()
막대그래프
(sns. countplot)

 

이변량 분석 도구

  Y
숫자 범주
그래프 통계량 그래프 통계량
X 숫자 산점도 상관계수
분석
범주별
kdeplot
히스토그램
 
범주 sns.barplot
평균비교
2 3개 이상 mosaic 카이제곱검정
t-test anova
 

통계량 이해

상관계수 = 공분산을 표준화 한 값     -1, 1에 가까울 수록 강한 상관관계를 나타냄    일반적으로 못해도 0.1은 넘어야 상관이 있다고 봄  *기울기나 비산형 관계는 고려하지 않고 선형에 가까울수록 관계가 높다!  산점도를 같이 보자

 

t-test = 범주 수가 2개일때 사용 평균의 차이    일반적으로 -2보다 작거나 2보다 클 때 관계가 있다고 봄

 

anova = 집단 간 분산 / 집단 내 분산 2~3 이상이면 차이가 있다고 봄

 

카이제곱검정 = 기대빈도와 실제 빈도의 차이    - 자유도보다 2배 이상 높으면 차이가 있다고 봄 

*2개 범주를 사용 할 때 자유도 = (범주의수-1) *(범주의 수 -1)