본문 바로가기
파이썬/판다스, 넘파이

파이썬 기초 데이터프레임 중복값 제거 -drop_duplicates()

by 큰고양2 2023. 8. 28.

drop_duplicates()

데이터프레임.drop_duplicates(subset=열이름, keep='first', inplace=False, ignore_index=False)

 

형태로 사용한다

subset은 중복을 확인할 열 이름을 지정한다

만약 지정하지 않으면 모든 열을 검사해 하나라도 중복이 되면 해당 열을 제거한다

 

keep옵션은 first와 last를 지정해 중복된 값 중 첫번째를 남길지 마지막을 남길지 정할 수 있다

기본값은 first다

 

ignore_index는 인덱스를 무시하고 0,1,2형태의 인덱스로 사용할지 정하는 옵션이다

기본적으로 False이며 특수한 경우를 제외하고는 쓸 일이 없다