본문 바로가기

MLOps

(36)
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 3편 효율적인 시스템 운영을 위한 Fargate on EKS 적용하기 - 3편 본 글은 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다. 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 들어가기 전에 알면 좋은 것 VPC Peering VPC 피어링은 Amazon Web Service에서 제공하는 가상 프라이빗 클라우드(VPC) 간의 네트워크 연결 기술 VPC 끼리는 논리적으로 분리되어 있는데, VPC 피어링 연결은 두 VPC 간에 트래픽을 라우팅 하는 연결 사용자의 자체 VPC , 다른 AWS 계정 VPC와 VPC, 다른 리전 VPC 사이 피어링 연결을 만들 수 있..
Dag를 알고 있는 녀석은?(K8sExecutor & K8sPodOperator) K8sExecutor & K8sPodOperator 가 실행하는 Dag Airflow 사용하면서 궁금 했던 점을 정리하였음 다음과 같은 분들이 읽어 주시면 감사하겠습니다. Airflow & K8s를 사용해 엔지니어링을 시작하시는 분들 피드백을 남겨주실 고수분들 아무나 1. K8sExecutor &K8sPodOperator 동작 과정 을 요약하자면 수행해야 할 시점이 된 태스크를 스케줄러가 찾는다, Executor는 동적으로 Airflow 워커를 POD 형태로 실행한다. 해당 워커 POD는 개발자가 직접 정의한 컨테이너 이미지를 POD 형태로 또다시 실행한다 아래가 요약 과정을 그림으로 나타낸 것 이다. 그림 출처 : 라인 테크블로그 설명 끝.. 동작 과정만 놓고 보면 간단한데, 여기서 궁금 한 점은 K8..
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 2편 효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 2편 본 글은 대규모 크롤링 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다. 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 목적 이번 포스팅의 목적은 Airflow Scheduler를 통해 PodExecutor를 한 것이 아닌, 그전에 Fargate 통한 Pod를 배포를 하면서 경험한 내용과 배운 점을 정리했다. 1. Fargate Profile 프로필 추가같은 경우 콘솔이나 eksctl 중에 뭘 사용하든 상관없다. 프로필 생성 eksctl create fargateprofil..
What's the Rack Awareness in HDFS What's the Rack Awareness in HDFS 랙 인지란 무엇인가? Q. Rack 이란? A. DataNode의 물리적인 모음 Q. 하둡 클러스터 구성은? A. 여러 개의 Rack으로 구성 Q. Rack의 구성? A. 네트워크 Switch + N개의 DataNode으로 구성 즉 서로 가까이 있고 동일한 네트워크 스위치에 연결된 DataNode 모음 Q. Rack 마다 DataNode 몇 개 들어가나? A. 3~40개라는데 회사마다 다를것 같음 Q. Rack Awareness? A. Rack 정보를 기반으로 가장 가까운 DataNode를 선택하는 것 Q. Rack 정보는 뭔데? A. NameNode가 가지고 있는 DataNode의 Rack ID Q. 가장 가까운 DataNode를 왜 선택해야..
효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 1편 효율적인 대규모 크롤링 시스템 운영을 위한 Fargate on EKS 적용하기 - 1편 본 글은 대규모 크롤링 시스템 환경 개선을 위해 Fargate on EKS 적용하여 주니어 입장에서 멘땅에 헤딩하며 구축한 과정의 이야기다 다음과 같은 분들이 읽으면 좋습니다. EKS를 사용해보고자 하는 엔지니어 입문자 피드백을 남기고 싶은 고수분들 지나가는 행인 시작하기 전에 알면 좋은 것들 프로비저닝(Provisioning) 사용자 요구에 맞게 시스템 자원을 할당/배치/배포해 두었다가 필요시 시스템을 즉시 사용할 수 있는 상태로 미리 준비해 두는 것 스팟 인스턴스(Spot Instance) Spot : 시간당 가격 즉, 인스턴스 가격이 시간마다 달라지는데 수요와 공급에 따라 조정되기 때문에 공급이 많은 시간 때는 ..
[트러블 슈팅] Airflow webserver 접속이 계속 refused 된다고? (AWS EC2, Microk8s, helm chart) Airflow Webserver 접속이 계속 거부되는 경우 상황 EKS가 아닌 AWS EC2위에 직접 쿠버네티스를 설치 Helm chart를 사용해 Airflow를 Pod 단위로 배포를 시도 하지만 Webserver 접속은 계속 거부가 되는 상태 개요 최소 3일 이상의 삽질 중에 더 못하겠다고 스택오버플로우에 질문하자마자 20분 뒤에 혼자 해결하고 답변을 달아버린 능지처참 사건 스택오버플로우에서 자문자답하는 사람의 글 보러가기 I installed airflow using microk8s helm, but access to localhost:8080 is denied I am just getting started with Kubernetes. I'm using microk8s and I'm current..
[티끌모아 빅데이터] 나의 방문 일지 - 제 1편 : 티끌의 시작 - [티끌 모아 빅데이터] 나의 방문 일지 제1편 : 티끌의 시작 나의 방문 일지? 방문 기록 데이터 활용을 위한 데이터 파이프 라인 구축 왜 티끌이라고 표현했는가? 나의 방문 기록의 양이 빅데이터에 비하면 매우 "큐트"하기 때문이다. 왜 방문 기록을 데이터 사용했는가? 데이터 선정이유는 총 3가지였다. 데이터 사용에 있어서 API처럼 제한이 없는가? 매일 수집 가능한 데이터인가? 데이터 발생에 내가 관여할 수 있는가? 제1편 : 티끌의 시작 시작하기 전 크게 3가지 오픈소스, Airflow, Hadoop, Spark는 현재 설치되어 있다는 사실을 참고할 것 구글 방문 기록 데이터 위치 # /mnt/c/Users//AppData/Local/Google/Chrome/User Data/Default/Hist..
[트러블 슈팅] DAG안에 Task들이 병렬 실행을 하지 않는다?(Feat. Airflow Executor) Airflow Executor 개요 아래 그림과 같은 Graph를 가지는 DAG파일을 작성했다. 작성당시에 의도는 "앞에 3개의 Task를 동시에 실행하는 것"이었는데, 나머지 2개가 Queue 상태에 계속 걸려있는 것이다. 뭔가 잘못됐구나 싶었는데, 비밀은 Executor에 있다. Airflow.cfg 파일을 열어보면 지금 사용 중인 Executor을 확인할 수 있다. 이름만 봐도 알 수 있다. "순차적으로 실행하는 녀석" 옳다구나 하고 뒤에 값을, 바꾸지 마라 """ executor = KubernetesExecutor or executor = LocalExecutor """ 위에 처럼 바꾸고 airflow를 실행한다면, "Sqlite는 LocalExecutor를 지원하지 않는다!!"라는 에러문구를 ..