본문 바로가기
파이썬 기초 데이터프레임 중복값 제거 -drop_duplicates() drop_duplicates() 데이터프레임.drop_duplicates(subset=열이름, keep='first', inplace=False, ignore_index=False) 형태로 사용한다 subset은 중복을 확인할 열 이름을 지정한다 만약 지정하지 않으면 모든 열을 검사해 하나라도 중복이 되면 해당 열을 제거한다 keep옵션은 first와 last를 지정해 중복된 값 중 첫번째를 남길지 마지막을 남길지 정할 수 있다 기본값은 first다 ignore_index는 인덱스를 무시하고 0,1,2형태의 인덱스로 사용할지 정하는 옵션이다 기본적으로 False이며 특수한 경우를 제외하고는 쓸 일이 없다 2023. 8. 28.
파이썬 기초 판다스 데이터 프레임 합치기-concat(), merge() concat() pd.concat([데이터프레임1, 데이터프레임2], join = 'inner' , axis=1) 형태로 데이터 프레임을 합친다 데이터프레임은 한 개가 아니라 여러개를 합치는 것도 가능하다 join 옵션은 inner와 outer를 선택 할 수 있는데 inner를 선택하는 경우 인덱스가 같은 값만 합쳐지며 나머지 값은 그냥 버린다 outer을 사용해 합치는 경우 인덱스가 비어있는 곳은 결측치가 된다 axis옵션으로 축을 선택 할 수 있는데 0으로 지정하면 열 이름을 인덱스로 세로로 합치고 1로 지정하면 인덱스를 기준으로 합치게 된다 merge() pd.merge( 데이터프레임1, 데이터프레임2, on= ‘기준열’ , how=’inner’) 형태로 사용한다 concat과는 다르게 세로로 합칠.. 2023. 8. 27.
파이썬 기초 판다스 데이터 프레임 범주화 하기 -cut(), qcut() pd.cut() cut 함수는 값의 크기를 기준으로 범위를 나누어 범주화 할 때 사용한다 사용 방법은 pd.cut(데이터프레임[열이름] , bins = 나눌 기준, labels = 범주값 이름) 으로 사용하면 된다 bins는 나눌 구간을 직접 정하거나 아니면 몇개로 나눌지 지정 할 수 있다 구간을 지정하는 경우 [-np.inf , 10, 15, 20, 25 , np.inf] 형태로 구간을 지정 할 수 있다 각 숫자는 작은 n초과 n+1이하 이다 만약 숫자를 넣는다면 전체 값을 n 등분 해서 해당 범위에서 나눈다 범주값 이름은 지정한 범위에 맞는 숫자의 문자열 리스트를 넣어주면 된다 pd.qcut() pd.cut(데이터프레임[열이름] , 각 범주에 들어갈 수 , labels = 범주값 이름) qcut은 값.. 2023. 8. 27.
파이썬 기초 판다스 데이터 프레임 가변수화 -get_dummies get_dummies 를 이용하면 범주형 값을 0이나 1로 가변수화를 시킬 수 있다 사용하는 방법은 판다스를 임포트 한 후 pd.get_dummies(데이터프레임, columns= 열 이름, drop_first = ) 형태로 사용하면 된다 columns는 여러 열 이름을 집어 넣어도 된다 이 경우 리스트를 활용하자 만약 지정하지 않으면 문자열을 가진 모든 열을 가변수화 한다 drop_first는 가변수화 후 첫번째 열을 지울지 말지 정하는 옵션이다 2023. 8. 27.
파이썬 기초 판다스 데이터 프레임 결측치 찾기, 제거하기, 채우기 결측치 찾기 결측치는 데이터프레임.isnull() 을 사용하면 결측치는 True, 유효값은 False로 확인 할 수 있다 isnull() 대신, isna()를 사용해도 된다 데이터프레임.notnull()을 사용하면 유효값은 True 결측치는 False로 반환된다 notnull 대신, notna를 사용해도 된다 수를 확인하고 싶다면 데이터프레임.isna().sum()을 사용하자 결측치 제거 데이터프레임.dropna(axis= , inplace= , subset= ) 매소드로 결측치가 들어있는 열이나 행을 삭제 할 수 있다 axis는 기본적으로 0이다 열을 지우고싶다면 1을 입력하자 subset으로 기준 열을 정할 수 있다 결측치 채우기 결측치는 데이터프레임.fillna('채울값', inplace = ) 를.. 2023. 8. 27.
조금 늦게 작성하는 kt 에이블 스쿨 4기 오프닝 데이 후기 오프닝 데이 kt 에이블 스쿨은 첫 강의 날은 오프닝 데이라고 해서 에이블 스쿨의 소개와 강의가 어떻게 진행되는지, 그리고 특강까지 진행을 한다 순서는 사전준비, 오프닝 데이 및 전체 OT, 반별 OT, 전문가 특강 순으로 진행이 되었다 사전 준비 사전 준비에서는 기존에 kt에이블 스쿨 유튜브에 올라와있던 선배 에이블러들의 인터뷰 영상들을 틀어줬다 사실 이미 다 봤던 영상들이었다...ㅋㅋㅋㅋ 대충 요런 영상을 틀어줬다고 생각하면 된다 오프닝 데이와 전체 OT 오프닝 데이 파트에서는 이번 기수 합격자 들의 인터뷰를 틀어주며 시작되었다 나는 인터뷰 같은거 한 적 없었는데... 권역별로 몇 명만 따로 지정해서 인터뷰를 한 것 같았다 이후에는 KT에이블 스쿨 교육과정의 전체적인 진행 로드맵과 채용 연계 등에 대.. 2023. 8. 25.
파이썬 기초 판다스 범주형 데이터 변경-map() , replace() 랭크 ABCD 나 성별 female male, 혹은 no ,yes 같은 범주형 데이터는 map() , replace() 매소드로 변경이 가능하다 map()을 사용해 범주형 데이터 변경 데이터프레임[값을 바꿀 열] = 데이터프레임[값을 바꿀 열].map({이전 데이터 : 이후데이터)} 형식으로 값을 바꿀 수 있다 예를들어 student 라는 데이터 프로그램에는 시험 합격 여부가 result열에 n,y 로 입력되어 있는데 이 데이터를 0, 1로 바꾸고 싶다면 student['result'] = student['result'].map({ 'n' : 0 , 'y' : 1}) 을 사용하면 된다 *map()을 사용해서 데이터를 변경할때 map에 지정하지 않은 데이터는 모두 NaN으로 바뀐다는 점을 주의하자 repl.. 2023. 8. 22.
파이썬 기초 판다스 데이터 프레임 열 추가 및 삭제 데이터 프레임 열 추가하기 데이터 프레임의 열을 추가할때는 리스트를 추가할때처럼 데이터프레임[추가할 열 이름] = 값 형태로 넣어주면 된다 이 경우 리스트와 마찬가지로 기존 열의 맨 뒤에 열이 추가된다 혹은 데이터프레임.insert(위치, 이름 , 값) 순서로 넣어줘도 된다 insert를 사용하는 경우에는 위치를 직접 지정 할 수 있다 데이터 프레임 열 삭제하기 데이터프레임.drop(삭제할 열 이름, axis=1 , inplace= ) 을 활용해 열을 지울 수 있다 여러 열을 지울때는 리스트로 이름을 넣어주면 된다 axis의 경우 기본값이 0인데 0은 행을 의미한다 열을 지울것이기 때문에 생략하지 말고 꼭 axis=1을 넣자 inplace 옵션은 True와 False로 데이터 프레임에 적용 할지 선택한다 2023. 8. 22.
파이썬 기초 판다스 데이터프레임 groupby 사용하기 groupby() 판다스 데이터 프레임은 groupby()를 통해서 일정 범주를 기준으로 집계가 가능하다 사용법은 데이터프레임.groupby(by=범주값, as_index=False)[연속값].집계 메소드 로 사용하면 된다 여기서 as_index의 기본값은 True인데 이건 기준 범주를 인덱스로 사용할지 정하는 옵션이다 범주값은 여러개를 넣을 수 있다 이 경우 []로 묶어서 넣어주자 연속값 부분에는 조회를 원하는 인덱스를 넣으면 된다 만약 전체를 조회하고 싶다면 생략해도 좋다 2023. 8. 22.
파이썬 기초 판다스 데이터 프레임 값 조회하기 .loc[] .loc[ ] 판다스 데이터 프레임의 값은 loc 메소드를 통해 조회가 가능하다 구조는 .loc[행, 열]이다 여기서 열을 생략하는 경우 데이터프레임.loc[행] 형식으로 사용하고 행을 생략하고 열만 넣고 싶다면 데이터프레임.loc[:,열] 으로 사용하거나 데이터프레임[열] 형태로 .loc까지 생략해 버리면 된다 조건으로 조회 데이터프레임.loc[조건] 형식으로 행 자리에 조건을 넣을 수 있다 여기서 조건을 적을때는 선언한 변수명[값 조회 기준] 이후 조건을 적어주자 &와 == 을 통해 and와 or을 통한 여러 조건 조회도 가능하다 다만 and와 or로 적으면 안되고 꼭 기호를 써야한다 isin() 데이터프레임.loc[ 조건값.isin([값1, 값2])] 의 형태로 == 문장을 대체 할 수 있다 데이터.. 2023. 8. 21.