본문 바로가기

MLOps/Development

(18)
[Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) [Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) 이런 내용입니다. API를 주기적으로 호출하기 위해 Github Action을 사용했지만 큰 변수가 있었고, 변수를 해결하기 위해 국내 PaaS 클라우드 호스팅 서비스를 사용한 내용이다. 큰 변수? 그것은 Github Action에 사용량 제한이 있어서 10분마다 API를 호출하는 나한테는 2000분으로는 부족하다. 그래서 나는 이 부분을 CloudType의 힘을 빌리기로 했다. 동작 흐름 1. CloudType CloudTyped은 국내 PaaS 클라우드 호스팅 서비스이다. 모두의 플랫폼팀, 클라우드타입 클라우드타입은 클라우드 기반 애플리케이션을 빠르게 개발하고 배포할 수 있는 클라우드 애플리케이션 플랫폼입니다. c..
[Fix] 미 증권 뉴스 스크랩핑 : Error 524 - A timeout occurred [HotFix] 미 증권 뉴스 스크랩핑 - (Error 524 - A timeout occurred) 무료 인스턴스를 유료 인스턴스 처럼 사용 한 나의 잘 못이다 Error 524 Cloudflare가 성공적으로 원본 웹 서버에 연결되었지만, 기본값인 100초의 연결 시간 동안 원본 웹 서버가 HTTP 응답을 제공하지 않았음 Cloudflare 웹사이트와 애플리케이션의 성능, 전달 가능성 및 온라인 보안을 최적화하기 위해 다양한 제품에 걸쳐 콘텐츠 전달 네트워크(CDN) 및 DNS 서비스를 제공하는 미국 회사 원인 단순하게 그냥 스크래핑 양이 너무 많다. 해결 방법 10분 이내 올라온 뉴스만 가져 옴 동시에 스케줄러도 10분 단위로 동작 if (minutesAgo
미증권 뉴스 스크랩핑(Node.js , Express, Puppeteer, Koyeb) 미 증권 뉴스 스크랩핑 하기 푼돈으로 주식하는 서학개미로서, 주식 뉴스는 조금이라도 읽자라 생각해서 주식 블로그를 하고 있는데 블로그에 글이 올라가는 루틴은 아래와 같다 기사의 본문을 다 읽는 것이 아니라, 요약본을 읽는 정도이다. 2시간 정도 쓰는 것 같은데 이렇게 많이 쓰고 싶지는 않았고 시간을 좀 줄이고자 했다. 그래서 아래 2단계를 자동화하려고 했지만, 아쉽게도 착각한 게 있었다. ChatGPT를 결제해서 쓰는데 API는 그냥 사용 가능한 줄 알았다. ㅋㅋㅋ (알고 보니 별도 요금) 스타터들에게 5$ 를 지원해 주는데. 이걸로는 택도 없다. 그래서 5$ 로 API를 얼마나 사용할 수 있나 계산을 해봤다. (가격 측정은 1000 토큰(약 750단어) 당 가격이 지불된다. 1000토큰 당 가격은 0...
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 3편 효율적인 시스템 운영을 위한 Fargate on EKS 적용하기 - 3편 본 글은 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다. 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 들어가기 전에 알면 좋은 것 VPC Peering VPC 피어링은 Amazon Web Service에서 제공하는 가상 프라이빗 클라우드(VPC) 간의 네트워크 연결 기술 VPC 끼리는 논리적으로 분리되어 있는데, VPC 피어링 연결은 두 VPC 간에 트래픽을 라우팅 하는 연결 사용자의 자체 VPC , 다른 AWS 계정 VPC와 VPC, 다른 리전 VPC 사이 피어링 연결을 만들 수 있..
Dag를 알고 있는 녀석은?(K8sExecutor & K8sPodOperator) K8sExecutor & K8sPodOperator 가 실행하는 Dag Airflow 사용하면서 궁금 했던 점을 정리하였음 다음과 같은 분들이 읽어 주시면 감사하겠습니다. Airflow & K8s를 사용해 엔지니어링을 시작하시는 분들 피드백을 남겨주실 고수분들 아무나 1. K8sExecutor &K8sPodOperator 동작 과정 을 요약하자면 수행해야 할 시점이 된 태스크를 스케줄러가 찾는다, Executor는 동적으로 Airflow 워커를 POD 형태로 실행한다. 해당 워커 POD는 개발자가 직접 정의한 컨테이너 이미지를 POD 형태로 또다시 실행한다 아래가 요약 과정을 그림으로 나타낸 것 이다. 그림 출처 : 라인 테크블로그 설명 끝.. 동작 과정만 놓고 보면 간단한데, 여기서 궁금 한 점은 K8..
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 2편 효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 2편 본 글은 대규모 크롤링 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다. 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 목적 이번 포스팅의 목적은 Airflow Scheduler를 통해 PodExecutor를 한 것이 아닌, 그전에 Fargate 통한 Pod를 배포를 하면서 경험한 내용과 배운 점을 정리했다. 1. Fargate Profile 프로필 추가같은 경우 콘솔이나 eksctl 중에 뭘 사용하든 상관없다. 프로필 생성 eksctl create fargateprofil..
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 1편 효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 1편 본 글은 대규모 크롤링 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 시작하기 전에 알면 좋은 것들 프로비저닝(Provisioning) 사용자 요구에 맞게 시스템 자원을 할당/배치/배포해 두었다가 필요시 시스템을 즉시 사용할 수 있는 상태로 미리 준비해 두는 것 스팟 인스턴스(Spot Instance) Spot : 시간당 가격 즉, 인스턴스 가격이 시간마다 달라지는데 수요와 공급에 따라 조정되기 때문에 공급이 많은 시간 때는 ..
[티끌모아 빅데이터] 나의 방문 일지 - 제 1편 : 티끌의 시작 - [티끌 모아 빅데이터] 나의 방문 일지 제1편 : 티끌의 시작 나의 방문 일지? 방문 기록 데이터 활용을 위한 데이터 파이프 라인 구축 왜 티끌이라고 표현했는가? 나의 방문 기록의 양이 빅데이터에 비하면 매우 "큐트"하기 때문이다. 왜 방문 기록을 데이터 사용했는가? 데이터 선정이유는 총 3가지였다. 데이터 사용에 있어서 API처럼 제한이 없는가? 매일 수집 가능한 데이터인가? 데이터 발생에 내가 관여할 수 있는가? 제1편 : 티끌의 시작 시작하기 전 크게 3가지 오픈소스, Airflow, Hadoop, Spark는 현재 설치되어 있다는 사실을 참고할 것 구글 방문 기록 데이터 위치 # /mnt/c/Users//AppData/Local/Google/Chrome/User Data/Default/Hist..