티스토리 뷰
#1 판다스 chapter 1. 데이터 집합 불러오기
1. 데이터 분석의 시작은 데이터 불러오기!
우리가 데이터 분석을 하기 위해 가장 먼저 해야 할 일은 데이터를 불러오는 것이다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보는 방법을 알아보자. 처음 불러올 데이터 집합은 갭마인더이다.
(데이터 출처 : github.com/easysIT/doit_pandas)
import pandas
df = pandas.read_csv('../data/gapminder.tsv', sep='\t')
위 처럼 판다스의 여러가지 기능을 사용하려면 판다스 라이브러리를 불러와야한다.
그리고 나서 갭마인더를 불러오기 위해 read_csv 메서드를 사용한다. read_csv 메서드는 기본적으로 쉼표(,)로 열이 구분되어 있는 데이터를 불러옵니다. 하지만 갭마인더는 열이 탭으로 구분되어 있기 때문에 sep속성값을 \t로 지정한다.
판다스에 있는 메서드를 호출하려면 pandas와 점(.) 연산자를 사용해야 하는데 매번 pandas로 입력하려면 번거롭다. 따라서 아래와 같이 pd로 줄여 사용한다. ( ..에는 파일 경로를 써주면 된다.)
import pandas as pd
df = pd.read_csv('../data/gapminder.tsv', sep='\t')
2. 시리즈와 데이터프레임
갭마인더 집합을 불러 왔으면 이제 판다스에서 사용되는 자료형을 알아볼 차례이다. 판다스는 데이터를 효율적으로 다루기 위해 시리즈와 데이터 프레임 이라는 자료형을 사용합니다. 데이터프레임은 엑셀에서 볼 수 있는 시트와 동일한 개념이고 시리즈는 시트의 열 1개를 의미한다. 먼저 데이터프레임의 데이터를 확인하는 용도로 자주 사용하는 head 메서드에 대해 알아보자.
print(df.head())
country continent year lifeExp pop gdpPercap
0 Afghanistan Asia 1952 28.801 8425333 779.445314
1 Afghanistan Asia 1957 30.332 9240934 820.853030
2 Afghanistan Asia 1962 31.997 10267083 853.100710
3 Afghanistan Asia 1967 34.020 11537966 836.197138
4 Afghanistan Asia 1972 36.088 13079460 739.981106
head 메서드는 데이터프레임에서 가장 앞에 있는 5개의 행을 출력하므로 내가 불러온 데이터가 어떤 값을 가지고 있는지 쉽게 알수 있다.
다음은 df에 저장된 값이 정말 데이터프레임이라는 자료형인지 확인해 보자.
print(type(df))
<class 'pandas.core.frame.DataFrame'>
실행 결과 판다스의 데이터프레임이라는 것을 알 수 있다. type 메서드는 자료형을 출력해 준다. 자주 사용할 메서드이니 꼭 기억해두자.
다음으로 데이터프레임은 자신이 가지고 있는 데이터의 행과 열이 크기에 대한 정보를 shape라는 속성에 저장하고 있다. 다음을 입력하여 실행하면 갭마인더의 행과 열의 크기를 확인할 수 있다. 1번째 값은 행의 크기이고 2번째 값은 열의 크기입니다.
print(df.shape)
(1704, 6)
이제는 갭마인더에 어떤 정보가 들어있는지 알아보자. 위에서 사용했던 shape 속성을 사용했던 것처럼 columns 속성을 사용하면 데이터의 열 이름을 확인할 수 있다.
print(df.columns)
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')
갭마인더를 구성하는 열의 이름은 각각 'country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap' 이다.
마지막으로 데이터 프레임을 구성하는 값의 자료형은 데이터프레임의 dtypes 속성이나 info 메서드로 쉽게 확인할 수 있다.
print(df.dtypes)
country object
continent object
year int64
lifeExp float64
pop int64
gdpPercap float64
dtype: object
print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 country 1704 non-null object
1 continent 1704 non-null object
2 year 1704 non-null int64
3 lifeExp 1704 non-null float64
4 pop 1704 non-null int64
5 gdpPercap 1704 non-null float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None
3. 판다스와 파이썬 자료형 비교
다음 표에 앞으로 판다스를 공부하며 자주 다루게 될 자료형을 정리해 보았다. 그런데 판다스와 파이썬은 같은 자료형도 다르게 인식한다. 예를 들어 판다스는 문자열 자료형을 object로 인식하고 파이썬은 string으로 인식한다. 같은 자료형이라도 판다스, 파이썬이 서로 다른 이름으로 인식한다는 점을 주의하자!
판다스자료형 파이썬 자료형 설명
object string 문자열
int64 int 정수
float64 float 소수점을 가진 숫자
datetime64 datetime 파이썬 표준 라이브러리인 datetime이 반환하는 자료형
출처 : 데이터 분석을 위한 판다스 입문
'판다스 입문' 카테고리의 다른 글
판다스 데이터프레임과 시리즈( 데이터 프레임 다루기) (0) | 2021.03.20 |
---|---|
판다스 데이터프레임과 시리즈 (시리즈 응용하기) (0) | 2021.03.18 |
판다스 데이터프레임과 시리즈(시리즈 다루기) (0) | 2021.03.18 |
판다스의 시작(기초적인 통계 계산, 그래프 그리기) (0) | 2021.03.18 |
판다스의 시작(데이터 추출하기) (0) | 2021.03.14 |