티스토리 뷰

#1 판다스 chapter 1. 데이터 집합 불러오기

 

1.  데이터 분석의 시작은 데이터 불러오기!

 

우리가 데이터 분석을 하기 위해 가장 먼저 해야 할 일은 데이터를 불러오는 것이다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보는 방법을 알아보자. 처음 불러올 데이터 집합은 갭마인더이다.

 

(데이터 출처 : github.com/easysIT/doit_pandas)

 

import pandas

df = pandas.read_csv('../data/gapminder.tsv', sep='\t')

 

위 처럼 판다스의 여러가지 기능을 사용하려면 판다스 라이브러리를 불러와야한다.

그리고 나서 갭마인더를 불러오기 위해 read_csv 메서드를 사용한다. read_csv 메서드는 기본적으로 쉼표(,)로 열이 구분되어 있는 데이터를 불러옵니다. 하지만 갭마인더는 열이 탭으로 구분되어 있기 때문에 sep속성값을 \t로 지정한다.

 

판다스에 있는 메서드를 호출하려면 pandas와 점(.) 연산자를 사용해야 하는데 매번 pandas로 입력하려면 번거롭다. 따라서 아래와 같이 pd로 줄여 사용한다. ( ..에는 파일 경로를 써주면 된다.)

 

import pandas as pd
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

 

2. 시리즈와 데이터프레임

 

갭마인더 집합을 불러 왔으면 이제 판다스에서 사용되는 자료형을 알아볼 차례이다. 판다스는 데이터를 효율적으로 다루기 위해 시리즈와 데이터 프레임 이라는 자료형을 사용합니다. 데이터프레임은 엑셀에서 볼 수 있는 시트와 동일한 개념이고 시리즈는 시트의 열 1개를 의미한다. 먼저 데이터프레임의 데이터를 확인하는 용도로 자주 사용하는 head 메서드에 대해 알아보자.

 

print(df.head())

      country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106

 

head 메서드는 데이터프레임에서 가장 앞에 있는 5개의 행을 출력하므로 내가 불러온 데이터가 어떤 값을 가지고 있는지 쉽게 알수 있다.

 

다음은 df에 저장된 값이 정말 데이터프레임이라는 자료형인지 확인해 보자.

 

print(type(df))

<class 'pandas.core.frame.DataFrame'>

 

실행 결과 판다스의 데이터프레임이라는 것을 알 수 있다. type 메서드는 자료형을 출력해 준다. 자주 사용할 메서드이니 꼭 기억해두자.

 

다음으로 데이터프레임은 자신이 가지고 있는 데이터의 행과 열이 크기에 대한 정보를 shape라는 속성에 저장하고 있다. 다음을 입력하여 실행하면 갭마인더의 행과  열의 크기를 확인할 수 있다. 1번째 값은 행의 크기이고 2번째 값은 열의 크기입니다.

 

print(df.shape)

(1704, 6)

 

이제는 갭마인더에 어떤 정보가 들어있는지 알아보자. 위에서 사용했던 shape 속성을 사용했던 것처럼 columns 속성을 사용하면 데이터의 열 이름을 확인할 수 있다.

 

print(df.columns)

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

 

갭마인더를 구성하는 열의 이름은 각각 'country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap' 이다.

 

마지막으로 데이터 프레임을 구성하는 값의 자료형은 데이터프레임의 dtypes 속성이나 info 메서드로 쉽게 확인할 수 있다.

 

print(df.dtypes)

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None

 

3. 판다스와 파이썬 자료형 비교

 

다음 표에 앞으로 판다스를 공부하며 자주 다루게 될 자료형을 정리해 보았다. 그런데 판다스와 파이썬은 같은 자료형도 다르게 인식한다. 예를 들어 판다스는 문자열 자료형을 object로 인식하고 파이썬은 string으로 인식한다. 같은 자료형이라도 판다스, 파이썬이 서로 다른 이름으로 인식한다는 점을 주의하자!

 

판다스자료형        파이썬 자료형             설명

  object               string              문자열
  int64                 int                정수
  float64              float               소수점을 가진 숫자
  datetime64          datetime             파이썬 표준 라이브러리인 datetime이 반환하는 자료형

 

 

출처 :  데이터 분석을 위한 판다스 입문

데이터 출처 : github.com/easysIT/doit_pandas

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함