[Book] 7. 텍스트 데이터 다루기

Book Title : Introduction to Machine Learning with Python

- 파이썬 라이브러리를 활용한 머신러닝 -

지은이 : 안드레아스 뮐러, 세라 가이도

옮긴이 : 박해선

출판사 : 한빛미디어

코드 출처

https://github.com/rickiepark/introduction_to_ml_with_python

GitHub - rickiepark/introduction_to_ml_with_python: 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의

도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 주피터 노트북과 코드입니다. Contribute to rickiepark/introduction_to_ml_with_python development by creating an account on GitHub.

github.com

7.9 토픽 모델링과 문서 군집화

텍스트 데이터에 자주 적용하는 기법
비지도 학습으로 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업을 통칭
‘정치’, ‘스포츠’, ‘금융’등의 토픽으로 묶을 수 있는 뉴스 데이터가 좋은 예

7.9.1 LDA

함께 자주 나타는 단어의 그룹(토픽)을 찾는 방법
예를 들어 스포츠 기사에서 ‘팀’, ‘점수’, ‘시즌’ 과 같은 단어가 예상됨

7.10 요약

BoW 표현은 스팸, 부정거래 탐지, 감성 분석 같은 텍스트 분류 작업에서 강력할 수 있음
spacy : 효율적이며 잘 설계된 고수준 텍스트 처리 패키지
nltk : 기능이 풍부하지만 조금 오래된 라이브러리
gensim : 토픽 모델링이 강점인 자연어 처리 패키지

'Study > Introduction to ML with python - 한빛' 카테고리의 다른 글

[Book]Introduction to ML with python[END] (0)	2022.03.13
[Book] 7. 텍스트 데이터 다루기 - (2) (0)	2022.03.11
[Book] 7. 텍스트 데이터 다루기 - (1) (0)	2022.03.09
[Book] 6. 알고리즘 체인과 파이프라인 - (2) (0)	2022.03.04
[Book] 6. 알고리즘 체인과 파이프라인 - (1) (0)	2022.03.02

허곰의 코딩블로그

[Book] 7. 텍스트 데이터 다루기 - (3)

Book Title : Introduction to Machine Learning with Python

- 파이썬 라이브러리를 활용한 머신러닝 -

7.9 토픽 모델링과 문서 군집화

7.9.1 LDA

7.10 요약

'Study > Introduction to ML with python - 한빛' 카테고리의 다른 글

티스토리툴바

[Book] 7. 텍스트 데이터 다루기 - (3)

Book Title : Introduction to Machine Learning with Python

- 파이썬 라이브러리를 활용한 머신러닝 -

7.9 토픽 모델링과 문서 군집화

7.9.1 LDA

7.10 요약

'Study > Introduction to ML with python - 한빛' 카테고리의 다른 글

'Study/Introduction to ML with python - 한빛' Related Articles

티스토리툴바