파이썬/판다스, 넘파이

파이썬 기초 판다스 데이터 프레임 범주화 하기 -cut(), qcut()

큰고양2 2023. 8. 27. 22:34

pd.cut()

cut 함수는 값의 크기를 기준으로 범위를 나누어 범주화 할 때 사용한다

사용 방법은

pd.cut(데이터프레임[열이름] , bins = 나눌 기준, labels = 범주값 이름)

으로 사용하면 된다

bins는 나눌 구간을 직접 정하거나 아니면 몇개로 나눌지 지정 할 수 있다

구간을 지정하는 경우

[-np.inf , 10, 15, 20, 25 , np.inf] 형태로 구간을 지정 할 수 있다

각 숫자는 작은 n초과 n+1이하 이다

 

만약 숫자를 넣는다면 전체 값을 n 등분 해서 해당 범위에서 나눈다

범주값 이름은 지정한 범위에 맞는 숫자의 문자열 리스트를 넣어주면 된다

 

pd.qcut()

pd.cut(데이터프레임[열이름] ,  각 범주에 들어갈 수 , labels = 범주값 이름)

qcut은 값의 크기를 기준으로 나누는게 아니라

데이터의 숫자를 기준으로 나눈다

예를 들어 범주에 들어갈 수를 4개로 지정하면 각 범주마다 4개의 데이터를 할당한다

이외의 사용법은 cut과 동일하다