본문 바로가기
파이썬/머신러닝-지도학습

파이썬 머신러닝 지도학습 - 데이터 분리 (sklearn - train_test_split

by 큰고양2 2023. 9. 16.

import

from sklearn.model_selection import train_test_split

train_test_split

데이터를 머신러닝에 사용하기 위해서 학습 데이터와 테스트 데이터를 무작위로 분리하는 함수로

 

train_test_split(x , y, test_size = or train_size =, random_state = , shuffle= , stratify = )

형태로 사용한다

기본적으로는 (x,y , test_size=)정도만 입력해도 된다

각각의 옵션을 설명하자면

test_size = 전체 데이터에서 테스트로 사용할 데이터의 비율 ex 30% = 0.3

random_state = 데이터 분할에 사용되는 난수 생성의 시드 

shuffle = 데이터를 분할하기 전에 섞을지 선택 (기본=True)

stratify = 클래스별 비율을 유지할지 선택, ex) a 와 b가 각각 1:3 비율로 있다면, 이후 데이터에도 섞을때 해당 비율을 유지

 

해당 함수를 사용하면

x_train , x_test, y_train , y_test 순서대로 나눈 데이터를 반환한다

 

ex ) 학습데이터와 테스트 데이터를 7:3으로 나누고 각각  변수에 저장

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)