본문 바로가기

MLOps

(36)
쿠팡 상품 정보 수집기 v1.1.0 쿠팡 상품 정보 수집기 v1.1.0 버전까지 붙여서 있어 보이지만 별 다른 기능은 없다. 이번에는 2가지 기능을 추가했다. 상품 제목의 평균길이와 평균 키워드 수 상품 이름에서 가장 자주 사용되는 단어 Top 10 실행화면
쿠팡 상품 정보 수집기(Python, Pyside6) 쿠팡 상품 수집기(Python, Pyside6) 파이썬 GUI라고 검색하니까 대표적으로 Pyside랑 PyQt 프레임워크를 사용한다고 하길래, Pyside6을 사용했다. Pyside6 선택 이유 가장 큰 선택이유는 PyQT는 GPL 또는 상용 라이선스를 사용하고 Pyside는 LGPL 라이선스를 사용한다는 것이다 여기서 LGPL이란, Lesser General Public License의 약자로서 자유 소프트웨어 라이센스이다. 결론적으로 LGPL은 상용화에 사용해도 GPL보다는 덜 제약을 받는다길래 사용했다... 실행화면 느낀 점 Qt Designer를 사용했는데, 버튼들 위치 수정 띡띡 하고 ObjectName만 던져주고 사용하는 게 너무 편리하다. 코드 中 threads = [] for thread_..
꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 서론 실습이 더 중요하지만... 이론적으로 공부했다. 노트북아 힘내렴 Spark에서 사용할 수 있는 데이터 형태에는 뭐가 있나? Apache Spark에서는 RDD(Resilient Distributed Dataset), DataFrame 및 Dataset 3가지 데이터 형태를 사용 가능 Spark의 기본 컨셉이 RDD(Resilent Distributed Datasets) 임 3개 중에 뭐 사용? 데이터 특성에 따라 적합한 데이터 형태를 선택해야 함 1. RDD (Resilient Distributed Dataset) Spark에서 가장 초기에 개발된 데이터 형태 불변성과 탄력성을 가지는 분산된 객체 컬렉션 RDD는 직접..
[Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) [Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) 이런 내용입니다. API를 주기적으로 호출하기 위해 Github Action을 사용했지만 큰 변수가 있었고, 변수를 해결하기 위해 국내 PaaS 클라우드 호스팅 서비스를 사용한 내용이다. 큰 변수? 그것은 Github Action에 사용량 제한이 있어서 10분마다 API를 호출하는 나한테는 2000분으로는 부족하다. 그래서 나는 이 부분을 CloudType의 힘을 빌리기로 했다. 동작 흐름 1. CloudType CloudTyped은 국내 PaaS 클라우드 호스팅 서비스이다. 모두의 플랫폼팀, 클라우드타입 클라우드타입은 클라우드 기반 애플리케이션을 빠르게 개발하고 배포할 수 있는 클라우드 애플리케이션 플랫폼입니다. c..
[Fix] 미 증권 뉴스 스크랩핑 : Error 524 - A timeout occurred [HotFix] 미 증권 뉴스 스크랩핑 - (Error 524 - A timeout occurred) 무료 인스턴스를 유료 인스턴스 처럼 사용 한 나의 잘 못이다 Error 524 Cloudflare가 성공적으로 원본 웹 서버에 연결되었지만, 기본값인 100초의 연결 시간 동안 원본 웹 서버가 HTTP 응답을 제공하지 않았음 Cloudflare 웹사이트와 애플리케이션의 성능, 전달 가능성 및 온라인 보안을 최적화하기 위해 다양한 제품에 걸쳐 콘텐츠 전달 네트워크(CDN) 및 DNS 서비스를 제공하는 미국 회사 원인 단순하게 그냥 스크래핑 양이 너무 많다. 해결 방법 10분 이내 올라온 뉴스만 가져 옴 동시에 스케줄러도 10분 단위로 동작 if (minutesAgo
미증권 뉴스 스크랩핑(Node.js , Express, Puppeteer, Koyeb) 미 증권 뉴스 스크랩핑 하기 푼돈으로 주식하는 서학개미로서, 주식 뉴스는 조금이라도 읽자라 생각해서 주식 블로그를 하고 있는데 블로그에 글이 올라가는 루틴은 아래와 같다 기사의 본문을 다 읽는 것이 아니라, 요약본을 읽는 정도이다. 2시간 정도 쓰는 것 같은데 이렇게 많이 쓰고 싶지는 않았고 시간을 좀 줄이고자 했다. 그래서 아래 2단계를 자동화하려고 했지만, 아쉽게도 착각한 게 있었다. ChatGPT를 결제해서 쓰는데 API는 그냥 사용 가능한 줄 알았다. ㅋㅋㅋ (알고 보니 별도 요금) 스타터들에게 5$ 를 지원해 주는데. 이걸로는 택도 없다. 그래서 5$ 로 API를 얼마나 사용할 수 있나 계산을 해봤다. (가격 측정은 1000 토큰(약 750단어) 당 가격이 지불된다. 1000토큰 당 가격은 0...
지우개 아니고 Erase coding in hadoop 3.x Erase Coding 이란? What's the Erase coding in hadoop 3.x!! Erase Coding 왜 사용? HDFS 기본 복제 체계는 스토리지 공간 및 기타 리소스에 200% 오버헤드가 있음. 기본적으로 1개의 원본과 2개의 복제본을 생성하기 때문임 따라서 동일한 수준의 내결함성을 제공하고 훨씬 적은 저장 공간을 사용하는 EC(Erase Coding)을 사용 Erase Coding Schema 아래는 하둡 문서에서 가져왔다. The EC schema: This includes the numbers of data and parity blocks in an EC group (e.g., 6+3), as well as the codec algorithm (e.g., Reed-Solo..
아파치 하둡 입문 강좌 정리 아파치 하둡 입문 강좌 정리 이번 포스팅은 [토크 ON세미나] 아파치 하둡 입문 1강 ~ 4강의 내용과 추가적으로 공부한 내용을 정리한 글입니다. 강좌 [토크ON세미나] 아파치 하둡 입문 왜 하둡인가? 데이터 홍수의 시대, 하둡은 비정형 데이터를 포함한 빅데이터를 다루기 위한 가장 적절한 플랫폼 구글의 GFS 발표 웹 검색엔진을 만들려면 크롤링을 해야 하고 크롤링한 데이터를 저장한 다음에 인덱싱 라이브러리로 색인을 해야 함 하지만 웹에서 수집되는 데이터는 매우 많고 그것은 모두 인덱싱 하면 많은 데이터를 분산/병렬 처리를 해야 하는 이슈 위 같은 문제 해결을 위해 2003년에 구글에서 GFS 아키텍처를 발표함 MapReduce 2004년, 구글 개발자 제프 딘이 MapReduce 논문 발표 구글에서 큰 ..