본문 바로가기
파이썬/판다스, 넘파이

파이썬 기초 판다스 데이터프레임과 pd.read_csv()

by 큰고양2 2023. 8. 20.

데이터 프레임

데이터 프레임은 행과 열 형태로 데이터를 저장하는 자료 형식으로

데이터와 행,열의 이름으로 구성이 된다

여기서 행과 열의 이름은 지정하지 않으면 알아서 0부터 시작해서 이름이 붙는다

형태는 엑셀을 생각하면 이해하기 쉽다

 

판다스 사용하기

import pandas as pd

코드로 판다스 라이브러리를 불러온다

라이브러리를 꼭 pd라는 이름으로 정의 할 필요는 없지만

대부분 pd로 사용하니 죽어도 pd라는 글자를 쓰기 싫은게 아니면 그냥 pd로 정의하자

 

판다스로 데이터 프레임 만들기

pd.DataFrame(data=데이터, index = 행 이름, columns = 열 이름 )

데이터 프레임은 pd.DataFrame() 함수를 사용한다

값을 그냥 넣으면 data로 받아오며 index = 으로 행 이름, columns = 으로 열 이름을 지정 할 수 있다

 

+딕셔너리를 데이터로 넣으면 columns에는 키 이름들, data에는 해당 값이 들어간다

 

pd.read_csv()

csv 파일을 읽을 때는 pd.read_csv(파일경로) 를 사용한다

 

sep: 구분자 지정(기본값 = 콤마)

header: 헤더가 될 행 번호 지정(기본값 = 0)

index_col: 인덱스 열 지정(기본값 = False)

names: 열 이름으로 사용할 문자열 리스트

encoding: 인코딩 방식을 지정

을 사용해 옵션을 지정 할 수 있다

 

encoding의 경우에는 보통 한글을 읽어 올 때 따로 지정하는데

encoding = 'utf-8'  혹은 encoding='CP949' 로 지정하면 된다

일반적으로 앞의 것을 주로 사용하고 오류가 나면 뒤의 것을 사용한다

 저장

저장은 .to_csv(경로) 를 사용해 저장이 가능하다