본문 바로가기

Study/Introduction to ML with python - 한빛

[Book] 7. 텍스트 데이터 다루기 - (3)

Book Title : Introduction to Machine Learning with Python

- 파이썬 라이브러리를 활용한 머신러닝 -

지은이 : 안드레아스 뮐러, 세라 가이도

옮긴이 : 박해선

출판사 : 한빛미디어

코드 출처

https://github.com/rickiepark/introduction_to_ml_with_python

 

GitHub - rickiepark/introduction_to_ml_with_python: 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의

도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 주피터 노트북과 코드입니다. Contribute to rickiepark/introduction_to_ml_with_python development by creating an account on GitHub.

github.com


7.9 토픽 모델링과 문서 군집화

  • 텍스트 데이터에 자주 적용하는 기법
  • 비지도 학습으로 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업을 통칭
  • ‘정치’, ‘스포츠’, ‘금융’등의 토픽으로 묶을 수 있는 뉴스 데이터가 좋은 예

7.9.1 LDA

  • 함께 자주 나타는 단어의 그룹(토픽)을 찾는 방법
  • 예를 들어 스포츠 기사에서 ‘팀’, ‘점수’, ‘시즌’ 과 같은 단어가 예상됨

7.10 요약

  • BoW 표현은 스팸, 부정거래 탐지, 감성 분석 같은 텍스트 분류 작업에서 강력할 수 있음
  • spacy : 효율적이며 잘 설계된 고수준 텍스트 처리 패키지
  • nltk : 기능이 풍부하지만 조금 오래된 라이브러리
  • gensim : 토픽 모델링이 강점인 자연어 처리 패키지