import
from sklearn.model_selection import train_test_split
train_test_split
데이터를 머신러닝에 사용하기 위해서 학습 데이터와 테스트 데이터를 무작위로 분리하는 함수로
train_test_split(x , y, test_size = or train_size =, random_state = , shuffle= , stratify = )
형태로 사용한다
기본적으로는 (x,y , test_size=)정도만 입력해도 된다
각각의 옵션을 설명하자면
test_size = 전체 데이터에서 테스트로 사용할 데이터의 비율 ex 30% = 0.3
random_state = 데이터 분할에 사용되는 난수 생성의 시드
shuffle = 데이터를 분할하기 전에 섞을지 선택 (기본=True)
stratify = 클래스별 비율을 유지할지 선택, ex) a 와 b가 각각 1:3 비율로 있다면, 이후 데이터에도 섞을때 해당 비율을 유지
해당 함수를 사용하면
x_train , x_test, y_train , y_test 순서대로 나눈 데이터를 반환한다
ex ) 학습데이터와 테스트 데이터를 7:3으로 나누고 각각 변수에 저장
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
'파이썬 > 머신러닝-지도학습' 카테고리의 다른 글
파이썬 머신러닝 지도학습 - Decision Tree(결정 트리) (분류, 회귀) (0) | 2023.09.16 |
---|---|
파이썬 머신러닝 지도학습 - K-Nearest Neigbor(KNN) (분류, 회귀) (0) | 2023.09.16 |
머신러닝 지도학습 - 분류모델 성능 평가 데이터의 이해 - sklearn.metrics (0) | 2023.09.16 |
머신러닝 지도학습 - 회귀모델 성능 평가 데이터의 이해-sklearn.metrics (0) | 2023.09.16 |
머신러닝 지도학습 - 회귀와 분류, 분석도구 (0) | 2023.09.16 |