파이썬/판다스, 넘파이
파이썬 기초 판다스 데이터 프레임 범주화 하기 -cut(), qcut()
큰고양2
2023. 8. 27. 22:34
pd.cut()
cut 함수는 값의 크기를 기준으로 범위를 나누어 범주화 할 때 사용한다
사용 방법은
pd.cut(데이터프레임[열이름] , bins = 나눌 기준, labels = 범주값 이름)
으로 사용하면 된다
bins는 나눌 구간을 직접 정하거나 아니면 몇개로 나눌지 지정 할 수 있다
구간을 지정하는 경우
[-np.inf , 10, 15, 20, 25 , np.inf] 형태로 구간을 지정 할 수 있다
각 숫자는 작은 n초과 n+1이하 이다
만약 숫자를 넣는다면 전체 값을 n 등분 해서 해당 범위에서 나눈다
범주값 이름은 지정한 범위에 맞는 숫자의 문자열 리스트를 넣어주면 된다
pd.qcut()
pd.cut(데이터프레임[열이름] , 각 범주에 들어갈 수 , labels = 범주값 이름)
qcut은 값의 크기를 기준으로 나누는게 아니라
데이터의 숫자를 기준으로 나눈다
예를 들어 범주에 들어갈 수를 4개로 지정하면 각 범주마다 4개의 데이터를 할당한다
이외의 사용법은 cut과 동일하다