chapter.1 나의 첫 머신러닝¶ 01-1 인공지능과 머신러닝, 딥러닝¶ - 인공지능이란?¶인공지능은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술이다. 우리가 현실에서 마주하고 있는 인공지능은 약인공지능이다. 약인공지능은 아직까지는 특정 분야에서 사람의 일을 도와주는 보조 역할만 한다. 예를 들면 음성 비서, 자율 주행 자동차, 음악 추천, 기계 번역등이다. 알파고도 좋은 예이다. - 머신러닝이란?¶머신러닝은 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야이다. 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야이다. 머신러닝은 통계학과 관련이 있다. 통계학에서 유래된 머신러닝 알고리즘이 많으..
5.2 구매 데이터를 분석하여 상품 추천하기¶ 이번 절에서는 구매 데이터 분석에 기반한 온라인 스토어 상품 추천 시뮬레이션 예제에 대해 알아보자. 예제에서 피처 엔지니어링, 그리고 행렬 완성 기반 점수 예측 방법을 이용하여 상품 추천 시뮬레이션을 수행한다. 분석에 사용할 데이터는 영국의 한 선물 판매 온라인 스토어에서 발생한 거래 데이터로, 주 고객은 선물 도매상이다. step.1 탐색적 분석: UK Retail 데이터 분석하기¶ 예제에서 사용할 UK Retail 데이터셋은 다음과 같은 피처로 구성되어 있다. InvoiceNo : 거래 고유 번호 StockCode : 상품 고유 번호 Description : 상품명 Quantity : 거래 수량 InvoiceDate : 거래 일시 UnitPrice : 상..
1. 야후 파이낸스를 이용한 테슬라 주가 분석하기¶ 이번엔 테슬라 주가에 대한 분석을 해보려고 한다. 주가처럼 연속적인 시간에 따라 다르게 측정되는 데이터를 시계열 데이터라 하며, 이를 분석하는 것을 '시계열 데이터 분석' 이라고 한다. step.1 탐색: 날짜 정보가 포함된 데이터 살펴보기¶ 데이터 출처 : 야후 파이낸스 (https://finance.yahoo.com/), 이것이 데이터 분석이다.(3-2 비트코인 시세분석 참조) In [160]: %matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt import yfinance as yf tsla_df의 기본정보를 확인해보자. In [161]: ..
타이타닉 생존자 데이터 분석 Study¶ 이번 블로그는 캐글 초보자를 위한 유명한 데이터 분석인 Titanic: Machine Learning from Disaster에 대한 블로깅일 할 것이다. 다음의 참고자료를 통해 재구성 한 것이다. 캐글 타이타닉 생존자 예측 도전기 (1) : https://cyc1am3n.github.io/2018/10/09/my-first-kaggle-competition_titanic.html 1. 데이터 분석을 위한 문제 정의하기¶ 타이타닉호의 탑승 했던 사람들의 정보를 바탕으로 생존자를 예측하는 문제이다. 이 데이터를 분석하기 위해 여러가지 머신러닝 스킬들을 사용할 것이다. 1. 데이터 불러오기¶제일 먼저 필요한 라이브러리인 numpy와 pandas를 import 하고 필..
ch04. 데이터 분류 모델¶ 4.1 타이타닉의 생존자 가려내기¶ 타이타닉의 생존자 그룹과 비생존자 그룹을 분류하는 예제를 4단계 step으로 살펴보자. 타이타닉 데이터셋의 구성은 다음과 같다. pclass : Passenger Class, 승객 등급 survived : 생존 여부 name : 승객 이름 sex : 승객 성별 age : 승객 나이 sibsp : 탑승 한 형제/배우자 수 parch : 탑승 한 부모/자녀 수 ticket : 티켓 번호 fare : 승객 지불 요금 cabin : 선실 이름 embarked : 승선항 (C = 쉘 부르그, Q = 퀸즈타운, S = 사우스 햄튼) body : 사망자 확인 번호 home.dest : 고향/목적지 분석에 사용할 데이터는 총 2개의 파일로 구성되어 있다..
3.3 미래에 볼 영화의 평점 예측하기¶step.1 탐색: MovieLens 데이터 살펴보기¶MovieLens 데이터는 총 3개의 데이터셋으로 분리되어 있다. 각 데이터는 '::' 구분자로 열을 구분하였기 때문에 read_csv() 함수를 사용할 때 delimeter='::'파라미터를 포함해야 한다. In [34]: import time import operator import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") In [35]: # Data Source : https://grouplens.org/da..
3.2 비트코인 시세 예측하기¶이번엔 비트코인 시세 예측이다. 비트코인 시세처럼 연속적인 시간에 따라 다르게 측정되는 데이터를 시계열 데이터라 하며, 이를 분석하는 것을 '시계열 데이터 분석' 이라고 한다. step.1 탐색: 시간 정보가 포함된 데이터 살펴보기¶우선 비트코인 데이터를 탐색하자. 아래 결과와 같이 날짜와 가격에 대한 2개의 피처로 구성되어 있다. 이러한 데이터셋을 시계열 데이터셋이라고 한다. market price 데이터셋의 기본 정보 구하기 In [70]: %matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt # 데이터 출처 : # Data Source : https://www.b..
ch03. 미래를 예측하는 데이터 분석¶3.1 프로야구 선수의 다음 해 연봉 예측하기¶예제에 들어가기 앞서 예측 분석의 가장 대표적인 방법인 회귀 분석을 살펴보자. step.1 탐색: 프로야구 연봉 데이터 살펴보기¶예제에서 사용할 연봉 데이터셋의 기본 정보를 살펴보자. 데이터의 기초 탐색결과는 다음과 같다. 프로야구 연봉 데이터셋은 총 152개이며, 22개 피처로 구성되어 있다. 이 22개의 피처는 선수가 가지고 있는 기록들에 대한 세부 정보를 나타낸다. 데이터 출처 : https://www.statiz.co.kr 프로야구 연봉 데이터셋의 기본 정보 구하기 In [1]: # -*- coding: utf-8 -*- %matplotlib inline import pandas as pd import numpy..
1.3 국가별 음주 데이터 분석하기¶두 번째 예제에서는 국가별 음주 데이터를 활용하여 탐색적 데이터 분석을 진행하자. step.1 탐색: 데이터의 기초 정보 살펴보기¶이번 데이터셋을 이루고 있는 피처는 다음과 같다. country : 국가정보 beer_servings : beer 소비량 spirit_servings : spirit 소비량 wine_servings : wine 소비량 total_litres_of_pure_alchol : 총 알코올 소비량 continent : 국가의 대륙 정보 In [2]: import pandas as pd import numpy as np import matplotlib.pyplot as plt file_path = '/home/jaeyoon89/python-da..
ch01. 데이터에서 인사이트 발견하기¶ 1.1 탐색적 데이터 분석의 과정¶ 탐색적 데이터 분석은 데이터의 정보를 파악하며 문제 해결에 필요한 힌트를 분석하는 과정이다. - 데이터와의 첫 만남¶ 우리가 실제로 접하는 대부분의 데이터는 아직 분석에 활용된 적 없는 혹은 정제되지 않은 데이터이다. 이러한 데이터를 raw data라고 부른다. 탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 이때 부터 다음과 같은 과정을 수행한다. 1. 데이터의 출처와 주제에 대해 이해한다.¶ 우선 데이터가 어디에서 생성된 것이고, 어떻게 수집된 것인지를 이해하는 것이 먼저이다. 데이터의 이름, 구성 요소, 그리고 데이터의 출처와 주제 등에 대해 가장 먼저 조사한다. 2. 데이터의 크기를 알아본다.¶ 데이터의 대략..