Book Title : Introduction to Machine Learning with Python
- 파이썬 라이브러리를 활용한 머신러닝 -
지은이 : 안드레아스 뮐러, 세라 가이도
옮긴이 : 박해선
출판사 : 한빛미디어
코드 출처
https://github.com/rickiepark/introduction_to_ml_with_python
7.9 토픽 모델링과 문서 군집화
- 텍스트 데이터에 자주 적용하는 기법
- 비지도 학습으로 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업을 통칭
- ‘정치’, ‘스포츠’, ‘금융’등의 토픽으로 묶을 수 있는 뉴스 데이터가 좋은 예
7.9.1 LDA
- 함께 자주 나타는 단어의 그룹(토픽)을 찾는 방법
- 예를 들어 스포츠 기사에서 ‘팀’, ‘점수’, ‘시즌’ 과 같은 단어가 예상됨
7.10 요약
- BoW 표현은 스팸, 부정거래 탐지, 감성 분석 같은 텍스트 분류 작업에서 강력할 수 있음
- spacy : 효율적이며 잘 설계된 고수준 텍스트 처리 패키지
- nltk : 기능이 풍부하지만 조금 오래된 라이브러리
- gensim : 토픽 모델링이 강점인 자연어 처리 패키지
'Study > Introduction to ML with python - 한빛' 카테고리의 다른 글
[Book]Introduction to ML with python[END] (0) | 2022.03.13 |
---|---|
[Book] 7. 텍스트 데이터 다루기 - (2) (0) | 2022.03.11 |
[Book] 7. 텍스트 데이터 다루기 - (1) (0) | 2022.03.09 |
[Book] 6. 알고리즘 체인과 파이프라인 - (2) (0) | 2022.03.04 |
[Book] 6. 알고리즘 체인과 파이프라인 - (1) (0) | 2022.03.02 |