신입 자라기 103일 차, 화요일
Daily Routine
시간 | Routine |
8 : 30 | 기상 |
9 : 00 ~ 10 : 00 | 출근 시간 |
10 : 00 ~ 11 : 30 | 1. [리눅스] 솔루션 설치를 위한 쉘 스크립트 작성 |
11 : 30 ~ 12 : 30 | 점심 시간 |
12 : 30 ~ 18 : 00 | 1. [리눅스] 솔루션 설치를 위한 쉘 스크립트 작성 |
18 : 00 ~ 21 : 00 | 1. 퇴근 및 휴식 |
21 : 00 ~ 21 : 30 | 1. 프로그래머스 |
21 : 30 ~ 24 : 30 | 휴식 |
24 : 30 ~ 25 : 00 | 1. 블로그 포스팅 |
sudo -E
- 명령어를 실행할 때 사용자 환경 유지
sudo -E python3 a.py
출근길에 읽어보는 Tech Blog
https://tech.kakao.com/2021/06/25/kakao-ai-recommendation-01/
3줄 요약(아무튼 3줄)
1. 카카오 추천팀은 강화 학습 기반 프레임워크 MAB를 사용하는데, 해당 알고리즘들은 '실제 환경에서 목표 학습이 가능', 장기적인 보상 최적화시켜주는 탐색' 마지막으로 실시간성'이라는 장점이 있음.
첫 번째 실제 환경이란 추천 모델이 유저에게 아이템을 추천해주고 그 추천 결과를 클릭하였는지를 의미하며, 클릭을 했으면 강화 학습에서 이것은 Reward로 사용할 수 있습니다.
두 번째 장기적 보상을 최적화시켜주는 탐색이란 마르코프 결정 과정 하에서 누적 보상(Reward)을 최대화할 수 있도록 설계되었기 때문에 당장 눈앞의 보상 값이 높지 않더라도 미래의 보상을 높여줄 수 있다면 해당 행동(추천)을 선택합니다.
세 번째 실시간성은 첫 번째 추천 결과를 보여주고 사용자의 피드백(선택, 클릭)이 반영되어 다시 추천 결과로 나타나는 이러한 사이클에 드는 시간에 따라서도 클릭의 유의미가 다라지기 때문에 모델이 점진적으로 업데이트할 수 있습니다.
2. 추천이 제공되기 전에는, 즉 강화 학습 모델이 강화되기전에는 사전에 사용자와 아이템 간의 클릭 로그 기반으로 토픽 모델링을 진행합니다. 토픽 모델링이란, 하나의 문서 안에 다양한 주제가 있다고 가정하면 문서별로 속한 단어들을 가지고 문서가 각 주제에 대해 얼마나 속해 있는지를 계산하는 것인데,
이를 활용해서 개인화 추천에서의 토픽 모델링이란, 한 명의 사용자 또는 콘텐츠 안에 내포되어 있는 주제가 여러 개 있다고 가정하고, 사용자가 클릭한 로그가 각 아이템(단어)가 얼마나 속해 있는지를 계산하는 방법으로 사용되는 것을 말합니다.
2. 토픽 모델링과 MAB 알고리즘을 통해 개인화 추천을 제공하는 방법은 학습과 추천에 필요한 연상량이 상대적으로 적고 모델 크기도 작음
'Study > 신입 자라기' 카테고리의 다른 글
[Study] 신입 자라기 - 105 (0) | 2022.07.15 |
---|---|
[Study] 신입 자라기 - 104 (0) | 2022.07.14 |
[Study] 신입 자라기 - 102 (0) | 2022.07.12 |
[Study] 신입 자라기 - 101 (0) | 2022.07.06 |
[Study] 신입 자라기 - 100 (0) | 2022.07.06 |