단변량 분석도구
통계 | 그래프 | |
숫자 | min, max, mean std, 사분위수 .describe()활용 |
히스토그램,kdeplot boxplot |
범주 | 범주별 빈도수 .value_counts() |
막대그래프 (sns. countplot) |
이변량 분석 도구
Y | ||||||
숫자 | 범주 | |||||
그래프 | 통계량 | 그래프 | 통계량 | |||
X | 숫자 | 산점도 | 상관계수 분석 |
범주별 kdeplot 히스토그램 |
||
범주 | sns.barplot 평균비교 |
2개 | 3개 이상 | mosaic | 카이제곱검정 | |
t-test | anova |
통계량 이해
상관계수 = 공분산을 표준화 한 값 -1, 1에 가까울 수록 강한 상관관계를 나타냄 일반적으로 못해도 0.1은 넘어야 상관이 있다고 봄 *기울기나 비산형 관계는 고려하지 않고 선형에 가까울수록 관계가 높다! 산점도를 같이 보자
t-test = 범주 수가 2개일때 사용 평균의 차이 일반적으로 -2보다 작거나 2보다 클 때 관계가 있다고 봄
anova = 집단 간 분산 / 집단 내 분산 2~3 이상이면 차이가 있다고 봄
카이제곱검정 = 기대빈도와 실제 빈도의 차이 - 자유도보다 2배 이상 높으면 차이가 있다고 봄
*2개 범주를 사용 할 때 자유도 = (범주의수-1) *(범주의 수 -1)
'파이썬 > scipy , 이변량분석' 카테고리의 다른 글
파이썬 기초 머신러닝 2개의 범주 분류 sklearn- KNeighborsClassifier (0) | 2023.09.11 |
---|---|
파이썬 기초 mosaic 를 사용한 범주대 범주 비교 그래프-mosaic() (0) | 2023.09.02 |
파이썬 기초 scipy.stats 카이제곱검정 - chi2_contingency() feat.교차표 (0) | 2023.09.02 |
파이썬 기초 pandas 범주끼리 비교 교차표-crosstab() (2) | 2023.09.02 |
파이썬 기초 scipy.stats 3개이상의 범주에 대한 anova구하기-spst.f_oneway() (0) | 2023.09.02 |