chaper.5 트리 알고리즘¶ 05-1 결정 트리¶ - 로지스틱 회귀로 와인 분류하기¶ 와인 데이터를 먼저 불러오자. 데이터 출처 : https://github.com/rickiepark/hg-mldl In [1]: import pandas as pd wine = pd.read_csv('/home/jaeyoon89/hg-mldl/wine.csv') In [2]: wine.head() Out[2]: alcohol sugar pH class 0 9.4 1.9 3.51 0.0 1 9.8 2.6 3.20 0.0 2 9.8 2.3 3.26 0.0 3 9.8 1.9 3.16 0.0 4 9.4 1.9 3.51 0.0 데이터를 잘 불러왔다 처음의 열 3개는 각각 알코올 도수,당도,PH 값을 나타낸다. ..
04-2 확률적 경사 하강법¶ - 점진적인 학습¶ 이번에 배울 내용은 훈련데이터가 조금씩 전달된다는 가정하에 시작하겠다. 조금씩 전달된 새로운 데이터를 기존의 훈련 데이터에 계속 추가하여 모델을 매일매일 훈련하면 어떨까? 나쁘지 않은 방법이다. 하지만 매일 추가되는 새로운 데이터를 활용해 모델을 훈련하면 데이터가 계속 늘어난다. 몇달이 지나면 모델을 훈련하기 위해 서버를 늘려야 한다. 이것은 지속 가능한 방법은 아니다. 다른 방법은 새로운 데이터를 추가할 때 이전 데이터를 버림으로써 훈련 데이터 크기를 일정하게 유지하는 것이다. 이렇게 하면 데이터셋의 크기가 너무 커지지 않을 수 있다. 하지만 데이터를 버릴 때 다른 데이터에 없는 중요한 생선 데이터가 포함되어 있으면 큰일이다. 앞서 훈련한 모델을 버리지..
chapter4. 다양한 분류 알고리즘¶ 04-1 로지스틱 회귀¶ - 럭키백의 확률¶ 이번 예제는 7가지 생선 중 럭키백에 들어가 있는 생선의 확률을 구하는 것이다. 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 7개 생선에 대한 확률을 출력해 볼 것이다. - 데이터 준비하기¶ 판다스의 read_csv() 함수로 csv 파일을 데이터프레임으로 변환한 다음 head() 메서드로 처음 5개의 행을 출력해보자. 데이터 출처 : https://github.com/rickiepark/hg-mldl In [1]: import pandas as pd fish = pd.read_csv('/home/jaeyoon89/hg-mldl/fish.csv') In [2]: fish.head() Out[2]:..
03-3 특성 공학과 규제¶ 앞서 다항회귀로 농어의 무게를 어느 정도 예측할 수 있었지만 여전히 훈련 세트보다 테스트 세트의 점수가 높았다. 이를 해결하려면 제곱보다 더 고차항을 넣어야 할 것 같은데 어떻게 넣어야 하는지 이제부터 배워보자. - 다중 회귀¶ 앞서 우리는 하나의 특성을 사용하여 선형 회귀 모델을 훈련시켰다. 여러 개의 특성을 사용한 선형 회귀를 다중 회귀라고 부른다. 1개의 특성을 사용했을 때 선형 회귀 모델이 학습하는 것은 직선이고 2개의 특성이면 평면을 학습한다. 하지만 3차원 공간 이상을 그리거나 상상할 수 없다. 하지만 분명한 것은 선형 회귀를 단순한 직선이나 평면으로 생각하여 성능이 무조건 낮다고 오해해서는 안된다. 이번엔 농어의 길이 뿐만아니라 농어의 높이와 두께도 함께 사용해보..
03-2 선형 회귀¶ - k-최근접 이웃의 한계¶ 앞서 사용한 데이터와 모델을 준비하자. In [19]: import numpy as np perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, 40.0, 4..
chapter.3 회귀 알고리즘과 모델 규제¶ 03-1 k-최근접 이웃 회귀¶ - k-최근접 이웃 회귀¶ 지도 학습 알고리즘은 크게 분류와 회귀로 나뉜다. 분류는 앞서 배웠지만 샘플을 몇 개의 클래스 중 하나로 분류하는 문제이다. 회귀는 클래스 중 하나로 분류하는 것이 아니라 임이의 어떤 숫자를 예측하는 문제이다. 예를 들면 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것이 회귀 문제이다. 회귀는 정해진 클래스가 없고 임의로 수치를 출력한다. k-최근접 이웃 회귀는 앞서 배운 k-최근접 이웃 알고리즘과 마찬가지로 분류와 똑같이 예측하려는 샘플에 가장 가까운 샘플 k개를 선택한다. 하지만 회귀이기 때문에 이웃한 샘플의 타깃은 어떤 클래스가 아니라 임의의 수치이다. 이웃 샘플의 수치를 사용..
chapte.2 데이터 다루기¶ 02-1 훈련 세트와 테스트 세트¶ - 지도 학습과 비지도 학습¶ 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나눌 수 있다. 지도 학습 알고리즘은 훈련하기 위한 데이터와 정답이 필요하다. 지도 학습에서는 데이터와 정답을 입력과 타깃이라고 하고, 이 둘을 합쳐 훈련 데이터라고 부른다. 지도 학습은 정답이 있어 알고리즘이 정답을 맞히는 것을 학습한다. 반면 비지도 학습 알고리즘은 타깃 없이 입력 데이터만 사용한다. 이런 종류의 알고리즘은 정답을 사용하지 않으므로 무언가를 맞힐 수가 없다. 대신 데이터를 잘 파악하거나 변형하는 데 도움을 준다. - 훈련 세트와 테스트 세트¶ 연습문제와 시험문제가 달라야 올바르게 학생의 능력을 평가할 수 있듯 머신러닝 알고리즘의 성능을 제..
chapter.1 나의 첫 머신러닝¶ 01-1 인공지능과 머신러닝, 딥러닝¶ - 인공지능이란?¶인공지능은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술이다. 우리가 현실에서 마주하고 있는 인공지능은 약인공지능이다. 약인공지능은 아직까지는 특정 분야에서 사람의 일을 도와주는 보조 역할만 한다. 예를 들면 음성 비서, 자율 주행 자동차, 음악 추천, 기계 번역등이다. 알파고도 좋은 예이다. - 머신러닝이란?¶머신러닝은 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야이다. 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야이다. 머신러닝은 통계학과 관련이 있다. 통계학에서 유래된 머신러닝 알고리즘이 많으..