단변량 분석도구

	통계	그래프
숫자	min, max, mean std, 사분위수 .describe()활용	히스토그램,kdeplot boxplot
범주	범주별 빈도수 .value_counts()	막대그래프 (sns. countplot)

이변량 분석 도구

통계량 이해

상관계수 = 공분산을 표준화 한 값 -1, 1에 가까울 수록 강한 상관관계를 나타냄 일반적으로 못해도 0.1은 넘어야 상관이 있다고 봄 *기울기나 비산형 관계는 고려하지 않고 선형에 가까울수록 관계가 높다! 산점도를 같이 보자

t-test = 범주 수가 2개일때 사용 평균의 차이 일반적으로 -2보다 작거나 2보다 클 때 관계가 있다고 봄

anova = 집단 간 분산 / 집단 내 분산 2~3 이상이면 차이가 있다고 봄

카이제곱검정 = 기대빈도와 실제 빈도의 차이 - 자유도보다 2배 이상 높으면 차이가 있다고 봄

*2개 범주를 사용 할 때 자유도 = (범주의수-1) *(범주의 수 -1)

파이썬 기초 머신러닝 2개의 범주 분류 sklearn- KNeighborsClassifier (0)	2023.09.11
파이썬 기초 mosaic 를 사용한 범주대 범주 비교 그래프-mosaic() (0)	2023.09.02
파이썬 기초 scipy.stats 카이제곱검정 - chi2_contingency() feat.교차표 (0)	2023.09.02
파이썬 기초 pandas 범주끼리 비교 교차표-crosstab() (2)	2023.09.02
파이썬 기초 scipy.stats 3개이상의 범주에 대한 anova구하기-spst.f_oneway() (0)	2023.09.02