본문 바로가기

Study

(180)
[Study] 신입 자라기 - 18 신입 자라기 18일 차 Task Logging 데이터 타입에 따라 인코딩, 벡터화를 다 진행 후 칼럼명 인버스 시켜서 학습까지 완료 전체 파이프라인 로직을 구상 중인데 머리가 복잡함(CS 공부를 더 해야 함) 단순한걸 너무 뇌절해서 시간을 낭비함 HashingVectorizer 사이킷런에서 제공하는 BoW 기반 벡터화 패키지 get_features_name_out 메서드가 없다. 벡터 라이져 객체 생성 시 n_features 만큼 칼럼명 만들어서 사용할 것 n_features : 출력 행렬의 기능(열) 수, 적은 수의 기능은 해시 충돌을 일으킬 수 있지만 많은 수는 선형 학습기에서 더 큰 계수 차원을 유발 재택 전에 보는 CS 메모리 할당 알고리즘 새로 적재될 데이터의 주기억장치에서 배치를 결정하는 전략..
[Study] 신입 자라기 - 17 신입 자라기 17일 차 Task Logging 텍스트형 데이터를 토크 나이저랑 해시 벡터 라이저 중에 어떤 걸, 무슨 상황에 써야 하는지 전혀 모르는 상황이었음 base코드를 계속 보고 인터넷 서치가 주 업무, 무기력해지는 재택 근무 였음 연속형 변수 스케일링? Boosting이나 Trees알고리즘에는 연속형 변수의 데이터 스케일링이 필요 없음 from sklearn.feature_extraction.text import HashingVectorizer hv = HashingVectorizer(n_features=300000) %time hv.transform(twenty.data) get_feature_names() 불가능 재택 전에 보는 CS 메모리 관리 전략 메모리 시스템은 메모리 위치를 관리하며 ..
[Book] 6. 알고리즘 체인과 파이프라인 - (1) Book Title : Introduction to Machine Learning with Python - 파이썬 라이브러리를 활용한 머신러닝 - 지은이 : 안드레아스 뮐러, 세라 가이도 옮긴이 : 박해선 출판사 : 한빛미디어 코드 출처 https://github.com/rickiepark/introduction_to_ml_with_python GitHub - rickiepark/introduction_to_ml_with_python: 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 주피터 노트북과 코드입니다. Contribute to rickiepark/introduction_to_ml_with_python development by..
[Study] 신입 자라기 - 16 신입 자라기 - 16일 차 Task Logging 첫 재택근무 원격 접속에 문제가 있어서 업무시간을 원격 설정하는데 소비 앙상블 학습이란 여러 개의 분류기를 생성하고 각 예측들을 결합함으로써 더욱 정확한 예측 결과를 도출하는 것 앙상블 학습 유형 1. Voting 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식 서로 다른 알고리즘을 가진 분류기를 결합 하드 보팅 : 다수결 투표, 각 모델의 predict 결과를 취합하여 가장 많이 예측된 클래스로 최종 예측 소프트 보팅 : predict 클래스가 아닌 predict_proba(예측 확률)을 모든 모델로부터 받아서, 각 클래스 당 예측 확률 값을 평균 내서 최종 예측 2. Bagging 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정..
워드 임베딩과 텍스트 벡터화 차이점 텍스트 벡터화와 워드 임베딩 차이점 워드 임베딩과 텍스트 벡터화의 차이점보다 횟수 기반 임베딩과 예측 기반 임베딩 차이점으로 봐주시면 감사하겠습니다. 텍스트 벡터화는 단순히 단어가 출현한 빈도를 고려하는 방법이고 워드 임베딩은 단어들 간의 의미를 고려해 예측하면서 단어를 벡터로 만드는 차이점을 가지고 있습니다. 텍스트 벡터화 Vectorization? 텍스트를 수치형 텐서로 변환하는 과정 자연어 처리(NLP : Natural Language Processing)에서 주로 사용 특징을 추출하는 방법 중 하나임 입력 데이터를 원시 형식(텍스트)에서 머신럴닝 모델이 지원하는 형식인 실수 벡터로 변환하는 방식에 대한 전문 용어 텍스트 벡터화 방식 희소 표현 방식(Sparse Representation) 밀집 표..
[Book] 5. 모델 평가와 성능 향상 - (2) Book Title : Introduction to Machine Learning with Python - 파이썬 라이브러리를 활용한 머신러닝 - 지은이 : 안드레아스 뮐러, 세라 가이도 옮긴이 : 박해선 출판사 : 한빛미디어 코드 출처 https://github.com/rickiepark/introduction_to_ml_with_python GitHub - rickiepark/introduction_to_ml_with_python: 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 주피터 노트북과 코드입니다. Contribute to rickiepark/introduction_to_ml_with_python development by..
[Study] 신입 자라기 - 15 신입 자라기 15일 차 - 휴무 Task Logging 출근에서 휴무로 변경되어 집에서 휴식 회사 근처 헬스장 등록 프로그래머스 레벨 2 문제 하나 풀기 사이킷런 교차검증 공부 내일은 벡터화와 워드 임베딩에 대해 공부 및 정리
[Book] 5. 모델 평가와 성능 향상 - (1) Book Title : Introduction to Machine Learning with Python - 파이썬 라이브러리를 활용한 머신러닝 - 지은이 : 안드레아스 뮐러, 세라 가이도 옮긴이 : 박해선 출판사 : 한빛미디어 코드 출처 https://github.com/rickiepark/introduction_to_ml_with_python GitHub - rickiepark/introduction_to_ml_with_python: 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 도서 "[개정판] 파이썬 라이브러리를 활용한 머신 러닝"의 주피터 노트북과 코드입니다. Contribute to rickiepark/introduction_to_ml_with_python development by..