Book Title : Hands-On Machine Learning with Scikit-Learn, Keras & Tensor Flow
지은이 : 오렐리앙 제롱
옮긴이 : 박해선
출판사 : 한빛 미디어
코드 출처
https://github.com/rickiepark/handson-ml2
1. 한눈에 보는 머신러닝
지도 학습(supervised learning)
- 훈련 데이터에 레이블(label, 원하는 답)이 포함
- 분류(classification)와 회귀(regression) 문제를 전형적으로 지도 학습으로 해결함
- 분류 예시) 나이가 어린가요? 프로젝트를 많이 안 해봤나요? -> 신입과 경력 중 신입이구나
- 회귀 예시) 2000 ~ 2022에는 신입의 연봉이 a원 ~ z원이었는데 2023년에는 @원 이겠구나
비지도 학습(unsupervised learning)
- 훈련 데이터에 레이블이 없음
- 비지도 알고리즘
- 1. Clustering
- k-means
- DBSCAM
- HCA(Hierarchical cluster analysis)
- Outlier detection & Novelty detection
- one-class SVM
- isolation forest
- 2. Visualization & Dimensionality reduction
- PCA
- LLE(Locally-linear Embedding)
- t-SNE
- 3. Assciation rule learning
- Apriori
- Eclat
준지도 학습(semisupervised learning)
- 훈련 데이터에 레이블 된 샘플이 있는 경우도 있고 없는 경우도 있음
- 예시) 가족사진을 모두 올리면 사람 A는 사진 1, 5, 11에 있고, 사람 B는 사진 2, 5, 7에 있다고 자동으로 인식할 때
- 레이블 하나만 추가하면 사진에 있는 모든 사람 이름을 알 수 있음
- 준지도 알고리즘
- 심층 신뢰 신경망(Deep belief network, DBN)
온라인 학습(Online Learning)
- 데이터를 순차적으로 한 개씩 또는 미니 배치라는 묶음 단위로 주입해서 시스템을 훈련시킴
- 빠른 변화에 스스로 적응해야 하는 시스템에 적합(ex. 주식..)
외부 메모리 학습(out-of-core)
- 컴퓨터 한 대의 메인 메모리에 들어갈 수 없는 아주 큰 데이터셋을 학습하는 시스템에도 온라인 학습 알고리즘을 사용할 수 있음
- 외부 메모리 학습은 보통 오프라인으로 실행됨
- 점진적 학습(incremental Learning)이라고도 함
용어 사전
샘플링 잡음 : 학습할 샘플이 작으면 발생(즉, 우연에 의한 대표성 없는 데이터)
샘플링 편향 : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못 할 수 있음
특성 공학(feature engineering)
- 훈련에 사용할 좋은 특성들을 찾는 것
- 특성 선택(feature selection) : 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택
- 특성 추출(feature extraction) : 특성을 결합하여 더 유용한 특성을 만듦
'Study > Hands-On Machine Learning' 카테고리의 다른 글
[Book] 6. 결정 트리 (0) | 2022.04.23 |
---|---|
[Book] 5. 서포트 벡터 머신 (0) | 2022.04.21 |
[Book] 4. 모델 훈련 (0) | 2022.04.20 |
[Book] 3. 분류 (0) | 2022.04.09 |
[Book] 2. 머신러닝 프로젝트 처음부터 끝까지 (0) | 2022.04.03 |