ch.05 데이터 종합 분석 예제¶ 5.1 중고나라 휴대폰 거래가격 예측하기¶ 이번 예제에서 사용하는 데이터는 https://www.data.go.kr/ 에서 제공하는 '네이버 중고나라' 데이터, 그리고 통신 3사 사이트에서 제공하는 휴대폰 공시가격 데이터를 기반으로 만들어진 것이다. step.1 탐색적 분석: 중고나라 데이터 분석하기¶ 예제에서 사용할 중고나라 데이터셋은 다음과 같은 피처로 구성되어 있다. create_date : 판매(or 구매) 게시글이 올라온 시점 price : 게시글 작성자가 제안한 휴대폰의 거래가격 text : 게시글의 제목과 본문을 합친 텍스트 데이터 phone_model : 휴대폰의 기종 factory_price : 휴대폰의 공시가격 maker : 휴대폰 제조사 price_..
4.2 강남역 맛집 리뷰로 알아보는 감성 분류¶ 분류 모델의 가장 대표적인 활용 방법 중 하나는 바로 감성 분류이다. 감성 분류란 문서를 긍정의견 또는 부정의견으로 나누어 분류하는 것이다. 이번엔 강남역 맛집 리뷰 데이터를 활용하여 감성 분류를 수행해보자. step.1 크롤링: 네이버 플레이스 리뷰 크롤링¶ 첫 번째 단계에서는 크롤링을 이용하여 감성 분류에 필요한 데이터를 직접 수집하자. 이번에 크롤링할 데이터는 네이버 플레이스의 음식점 랭킹 정보이다. 네이버 플레이스 API는 별도의 라이브러리 설치나 개발자 등록 없이 source_url에 검색 규칙을 추가하는 것만으로도 크롤링을 적용할 수 있다. 아래의 코드와 같이 start, display, query, sortingOrder 파라미터로 검색 규칙을..
ch02. 텍스트 마이닝 첫걸음¶ 2.1 웹 크롤링으로 기초 데이터 수집하기¶ 이번 절에서는 '나무위키 최근 변경 페이지'의 텍스트 데이터를 웹 크롤링으로 수집한 다음, 데이터 내에서 등장한 키워드의 출현 빈도를 분석해 보자. - 웹 크롤링 라이브러리 사용하기¶ 파이썬에서는 BeautifulSoup과 requests라는 라이브러리 웹 크롤러를 만들 수 있다. requests는 특정 URL로부터 HTML 문서를 가져오는 작업을 수행하고, BeautifulSoup 모듈은 HTML 문서에서 데이터를 추출하는 작업을 수행한다. 페이지의 URL 정보 추출하기 In [1]: # -*- coding: utf-8 -*- %matplotlib inline import pandas as pd import numpy as ..
5.2 구매 데이터를 분석하여 상품 추천하기¶ 이번 절에서는 구매 데이터 분석에 기반한 온라인 스토어 상품 추천 시뮬레이션 예제에 대해 알아보자. 예제에서 피처 엔지니어링, 그리고 행렬 완성 기반 점수 예측 방법을 이용하여 상품 추천 시뮬레이션을 수행한다. 분석에 사용할 데이터는 영국의 한 선물 판매 온라인 스토어에서 발생한 거래 데이터로, 주 고객은 선물 도매상이다. step.1 탐색적 분석: UK Retail 데이터 분석하기¶ 예제에서 사용할 UK Retail 데이터셋은 다음과 같은 피처로 구성되어 있다. InvoiceNo : 거래 고유 번호 StockCode : 상품 고유 번호 Description : 상품명 Quantity : 거래 수량 InvoiceDate : 거래 일시 UnitPrice : 상..
ch04. 데이터 분류 모델¶ 4.1 타이타닉의 생존자 가려내기¶ 타이타닉의 생존자 그룹과 비생존자 그룹을 분류하는 예제를 4단계 step으로 살펴보자. 타이타닉 데이터셋의 구성은 다음과 같다. pclass : Passenger Class, 승객 등급 survived : 생존 여부 name : 승객 이름 sex : 승객 성별 age : 승객 나이 sibsp : 탑승 한 형제/배우자 수 parch : 탑승 한 부모/자녀 수 ticket : 티켓 번호 fare : 승객 지불 요금 cabin : 선실 이름 embarked : 승선항 (C = 쉘 부르그, Q = 퀸즈타운, S = 사우스 햄튼) body : 사망자 확인 번호 home.dest : 고향/목적지 분석에 사용할 데이터는 총 2개의 파일로 구성되어 있다..
3.3 미래에 볼 영화의 평점 예측하기¶step.1 탐색: MovieLens 데이터 살펴보기¶MovieLens 데이터는 총 3개의 데이터셋으로 분리되어 있다. 각 데이터는 '::' 구분자로 열을 구분하였기 때문에 read_csv() 함수를 사용할 때 delimeter='::'파라미터를 포함해야 한다. In [34]: import time import operator import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") In [35]: # Data Source : https://grouplens.org/da..
3.2 비트코인 시세 예측하기¶이번엔 비트코인 시세 예측이다. 비트코인 시세처럼 연속적인 시간에 따라 다르게 측정되는 데이터를 시계열 데이터라 하며, 이를 분석하는 것을 '시계열 데이터 분석' 이라고 한다. step.1 탐색: 시간 정보가 포함된 데이터 살펴보기¶우선 비트코인 데이터를 탐색하자. 아래 결과와 같이 날짜와 가격에 대한 2개의 피처로 구성되어 있다. 이러한 데이터셋을 시계열 데이터셋이라고 한다. market price 데이터셋의 기본 정보 구하기 In [70]: %matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt # 데이터 출처 : # Data Source : https://www.b..
ch03. 미래를 예측하는 데이터 분석¶3.1 프로야구 선수의 다음 해 연봉 예측하기¶예제에 들어가기 앞서 예측 분석의 가장 대표적인 방법인 회귀 분석을 살펴보자. step.1 탐색: 프로야구 연봉 데이터 살펴보기¶예제에서 사용할 연봉 데이터셋의 기본 정보를 살펴보자. 데이터의 기초 탐색결과는 다음과 같다. 프로야구 연봉 데이터셋은 총 152개이며, 22개 피처로 구성되어 있다. 이 22개의 피처는 선수가 가지고 있는 기록들에 대한 세부 정보를 나타낸다. 데이터 출처 : https://www.statiz.co.kr 프로야구 연봉 데이터셋의 기본 정보 구하기 In [1]: # -*- coding: utf-8 -*- %matplotlib inline import pandas as pd import numpy..
1.3 국가별 음주 데이터 분석하기¶두 번째 예제에서는 국가별 음주 데이터를 활용하여 탐색적 데이터 분석을 진행하자. step.1 탐색: 데이터의 기초 정보 살펴보기¶이번 데이터셋을 이루고 있는 피처는 다음과 같다. country : 국가정보 beer_servings : beer 소비량 spirit_servings : spirit 소비량 wine_servings : wine 소비량 total_litres_of_pure_alchol : 총 알코올 소비량 continent : 국가의 대륙 정보 In [2]: import pandas as pd import numpy as np import matplotlib.pyplot as plt file_path = '/home/jaeyoon89/python-da..
ch01. 데이터에서 인사이트 발견하기¶ 1.1 탐색적 데이터 분석의 과정¶ 탐색적 데이터 분석은 데이터의 정보를 파악하며 문제 해결에 필요한 힌트를 분석하는 과정이다. - 데이터와의 첫 만남¶ 우리가 실제로 접하는 대부분의 데이터는 아직 분석에 활용된 적 없는 혹은 정제되지 않은 데이터이다. 이러한 데이터를 raw data라고 부른다. 탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 이때 부터 다음과 같은 과정을 수행한다. 1. 데이터의 출처와 주제에 대해 이해한다.¶ 우선 데이터가 어디에서 생성된 것이고, 어떻게 수집된 것인지를 이해하는 것이 먼저이다. 데이터의 이름, 구성 요소, 그리고 데이터의 출처와 주제 등에 대해 가장 먼저 조사한다. 2. 데이터의 크기를 알아본다.¶ 데이터의 대략..