#9 판다스 chapter 9. 그래프 그리기-데이터프레임과 시리즈로 그래프그리기/seaborn 라이브러리로 그래프 스타일 설정하기 데이터프레임과 시리즈로 그래프 그리기 데이터 프레임과 시리즈로도 그래프를 그릴 수 있다. 1) 먼저 히스토그램을 그려보자. 시리즈에 있는 plot 속서에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있다. ax = plt.subplot() ax = tips['total_bill'].plot.hist() 2) 투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 된다. 다음은 tips 데이터프레임에서 2개의 시리즈를 선택하여 히스토그램을 그린 것이다. 3) 밀집도, 산점도 그래프, 육각 그래프는 각각 k..
#8 판다스 chapter 8. 그래프 그리기-matplotlib, seaborn 라이브러리 자유자재로 사용하기 matplotlib 라이브러리 자유 자재로 사용하기 1. 기초 그래프 그리기 앞서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했던 것을 기억할 것이다. 이밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있다. seaborn 라이브러리에는 tips라는 데이터 집합이 있다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것이다. 1) tips 데이터 집합을 불러와 변수 tips에 저장한다. import seaborn as sns anscombe = sns.load_dataset("anscomb..
#7 판다스 chapter 7. 그래프 그리기-앤스콤 4분할 그래프 - 데이터 시각화가 필요한 이유 1) 앤스콤 4분할 그래프 살펴보기 데이터 시각화를 보여주는 전형적인 사례로 앤스콤 4분할 그래프가 있다. 이 그래프는 영국의 프랭크 앤스콤이 데이터시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프이다. 여기서 함정을 무엇일까? 앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹을 구성되어 있다. 이 4개의 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있다. 그래서 이런 결과만 보고 4개의 그룹의 데이터가 모두 같을 것이라는 함정이 이것이다. 따라서 우리는 각 데이터를 시각화하여 데이터 그룹이 서로 다른 패턴을 가지고 있다는 것을 가..
#6 판다스 chapter 6. 판다스 데이터 프레임 다루기 1. 불린 추출하기 데이터 프레임도 불린 추출을 할 수 있다. 아래는 데이터 프레임의 Age열에서 Age 열이 평균보다 높은 행만 출력한다. print(scientists[scientists['Age'] > scientists['Age'].mean()]) Name Born Died Age Occupation 1 William Gosset 1876-06-13 1937-10-16 61 Statistician 2 Florence Nightingale 1820-05-12 1910-08-13 90 Nurse 3 Marie Curie 1867-11-07 1934-07-04 66 Chemist 7 Johann Gauss 1777-04-30 1855-02-2..
#5 판다스 chapter 5. 판다스 시리즈 응용하기 1. 시리즈와 불린 추출 원하는 데이터를 추출할 때 특정 인덱스를 지정하여 추출했었다. 하지만 보통은 추출할 데이터의 정확한 인덱스를 모를 경우가 더 많다. 이때 사용하는 방법이 불린 추출이다. 불린 추출은 특정 조건을 만족하는 값만 추출할 수 있다. 이번에는 scientist.csv 라는 이름의 데이터를 불러오자. (데이터 출처 : github.com/easysIT/doit_pandas) scientists = pd.read_csv('../data/scientists.csv') ages = scientists['Age'] print(ages.max()) 90 print(ages.mean()) 59.125 print(ages[ages > ages.m..
#4 판다스 chapter 4. 판다스 시리즈 다루기 1. 나만의 데이터 만들기 * 시리즈 만들기 판다스의 series 메서드에 리스트를 전달하여 시리즈를 생성한다. import pandas as pd s = pd.Series(['banana',42]) print(s) 0 banana 1 42 dtype: object 시리즈를 생성할 때 문자열로 인덱스를 지정할 수도 있다. s = pd.Series(['Wes McKinney', 'Creator of Pandas']) print(s) 0 Wes McKinney 1 Creator of Pandas dtype: object s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who']..
#3 판다스 chapter 3. 기초적인 통계 계산, 그래프 그리기 *기초적인 통계 계산하기 지금까지는 데이터를 추출하는 방법에 대해 알아보았다. 이번엔 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보겠다. print (df.head(n=10)) country continent year lifeExp pop gdpPercap 0 Afghanistan Asia 1952 28.801 8425333 779.445314 1 Afghanistan Asia 1957 30.332 9240934 820.853030 2 Afghanistan Asia 1962 31.997 10267083 853.100710 3 Afghanistan Asia 1967 34.020 11537966 836.197138 4 Afghanist..
#2 판다스 chapter 2. 데이터 추출하기 앞서 head 메서드를 이용해 데이터프레임 가장 앞에 있는 5개의 데이터를 추출하여 출력했던 것을 기억할 것이다. 이번에는 데이터프레임에서 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보자. 1. 열 단위 데이터 추출하기 1) country_df = df['country'] print(type(country_df)) print(country_df.head()) 0 Afghanistan 1 Afghanistan 2 Afghanistan 3 Afghanistan 4 Afghanistan Name: country, dtype: object print(country_df.tail()) 1699 Zimbabwe 1700 Zimbabwe 1701..
#1 판다스 chapter 1. 데이터 집합 불러오기 1. 데이터 분석의 시작은 데이터 불러오기! 우리가 데이터 분석을 하기 위해 가장 먼저 해야 할 일은 데이터를 불러오는 것이다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보는 방법을 알아보자. 처음 불러올 데이터 집합은 갭마인더이다. (데이터 출처 : github.com/easysIT/doit_pandas) import pandas df = pandas.read_csv('../data/gapminder.tsv', sep='\t') 위 처럼 판다스의 여러가지 기능을 사용하려면 판다스 라이브러리를 불러와야한다. 그리고 나서 갭마인더를 불러오기 위해 read_csv 메서드를 사용한다. read_csv 메서드는 기본적으로 쉼표(,)로 열이 구..