본문 바로가기

전체 글

(259)
전혀 모르고 있다가 파이썬 3.12가 나왔다길래 읽어봤다는 내용 전혀 모르고 있다가 파이썬 3.12가 나왔다길래 읽어봤다는 내용 물론 7번째 알파 릴리즈 버전이었다. 오류메시지가 굉장히 친절해졌다 첫 번째, 아래 코드를 3.11과 3.12.0a7에서 동작시켜봄 class A: def __init__(self): self.blog = '허곰의 코딩블로그' def Blog(self): somethin = blog a = A() print(a.Blog()) NameError 3.11 버전 3.12 버전 그리고 이름이 살짝 틀린 모듈 임포트 from collections import chainmap ImportError 3.11 버전 3.12 버전 결론 친절함 폼 미쳤다..
왜 웹 브라우저 자동화 도구(Selenium, Pupeteer)는 로그인 상태가 유지되지 않는가? 왜 웹 브라우저 자동화 도구(Selenium, Pupeteer)는 로그인 상태가 유지되지 않는가? 때는 타오바오 중국 쇼핑몰 파싱 하던 도중, 타오바오 특징이 로그인을 안 하면 쇼핑 검색을 할 수가 없어서 로그인 부터 자동화를 시도했다. 로그인 과정에서 슬라이딩 캡차?가 존재하는데, 흠.. 헛짓거리의 흔적.. // 슬라이더 요소의 위치와 크기를 얻습니다. const sliderElement = await page.$('selector'); const sliderBox = await sliderElement.boundingBox(); ... // 슬라이더의 시작점으로 마우스를 이동합니다. const sliderStartX = sliderBox.x + sliderBox.width / 2; const slid..
꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 서론 실습이 더 중요하지만... 이론적으로 공부했다. 노트북아 힘내렴 Spark에서 사용할 수 있는 데이터 형태에는 뭐가 있나? Apache Spark에서는 RDD(Resilient Distributed Dataset), DataFrame 및 Dataset 3가지 데이터 형태를 사용 가능 Spark의 기본 컨셉이 RDD(Resilent Distributed Datasets) 임 3개 중에 뭐 사용? 데이터 특성에 따라 적합한 데이터 형태를 선택해야 함 1. RDD (Resilient Distributed Dataset) Spark에서 가장 초기에 개발된 데이터 형태 불변성과 탄력성을 가지는 분산된 객체 컬렉션 RDD는 직접..
[Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) [Update] 미 증권 뉴스 스크래핑 : 클라우드타입(CloudType - Paas) 이런 내용입니다. API를 주기적으로 호출하기 위해 Github Action을 사용했지만 큰 변수가 있었고, 변수를 해결하기 위해 국내 PaaS 클라우드 호스팅 서비스를 사용한 내용이다. 큰 변수? 그것은 Github Action에 사용량 제한이 있어서 10분마다 API를 호출하는 나한테는 2000분으로는 부족하다. 그래서 나는 이 부분을 CloudType의 힘을 빌리기로 했다. 동작 흐름 1. CloudType CloudTyped은 국내 PaaS 클라우드 호스팅 서비스이다. 모두의 플랫폼팀, 클라우드타입 클라우드타입은 클라우드 기반 애플리케이션을 빠르게 개발하고 배포할 수 있는 클라우드 애플리케이션 플랫폼입니다. c..
[Fix] 미 증권 뉴스 스크랩핑 : Error 524 - A timeout occurred [HotFix] 미 증권 뉴스 스크랩핑 - (Error 524 - A timeout occurred) 무료 인스턴스를 유료 인스턴스 처럼 사용 한 나의 잘 못이다 Error 524 Cloudflare가 성공적으로 원본 웹 서버에 연결되었지만, 기본값인 100초의 연결 시간 동안 원본 웹 서버가 HTTP 응답을 제공하지 않았음 Cloudflare 웹사이트와 애플리케이션의 성능, 전달 가능성 및 온라인 보안을 최적화하기 위해 다양한 제품에 걸쳐 콘텐츠 전달 네트워크(CDN) 및 DNS 서비스를 제공하는 미국 회사 원인 단순하게 그냥 스크래핑 양이 너무 많다. 해결 방법 10분 이내 올라온 뉴스만 가져 옴 동시에 스케줄러도 10분 단위로 동작 if (minutesAgo
미증권 뉴스 스크랩핑(Node.js , Express, Puppeteer, Koyeb) 미 증권 뉴스 스크랩핑 하기 푼돈으로 주식하는 서학개미로서, 주식 뉴스는 조금이라도 읽자라 생각해서 주식 블로그를 하고 있는데 블로그에 글이 올라가는 루틴은 아래와 같다 기사의 본문을 다 읽는 것이 아니라, 요약본을 읽는 정도이다. 2시간 정도 쓰는 것 같은데 이렇게 많이 쓰고 싶지는 않았고 시간을 좀 줄이고자 했다. 그래서 아래 2단계를 자동화하려고 했지만, 아쉽게도 착각한 게 있었다. ChatGPT를 결제해서 쓰는데 API는 그냥 사용 가능한 줄 알았다. ㅋㅋㅋ (알고 보니 별도 요금) 스타터들에게 5$ 를 지원해 주는데. 이걸로는 택도 없다. 그래서 5$ 로 API를 얼마나 사용할 수 있나 계산을 해봤다. (가격 측정은 1000 토큰(약 750단어) 당 가격이 지불된다. 1000토큰 당 가격은 0...
지우개 아니고 Erase coding in hadoop 3.x Erase Coding 이란? What's the Erase coding in hadoop 3.x!! Erase Coding 왜 사용? HDFS 기본 복제 체계는 스토리지 공간 및 기타 리소스에 200% 오버헤드가 있음. 기본적으로 1개의 원본과 2개의 복제본을 생성하기 때문임 따라서 동일한 수준의 내결함성을 제공하고 훨씬 적은 저장 공간을 사용하는 EC(Erase Coding)을 사용 Erase Coding Schema 아래는 하둡 문서에서 가져왔다. The EC schema: This includes the numbers of data and parity blocks in an EC group (e.g., 6+3), as well as the codec algorithm (e.g., Reed-Solo..
아파치 하둡 입문 강좌 정리 아파치 하둡 입문 강좌 정리 이번 포스팅은 [토크 ON세미나] 아파치 하둡 입문 1강 ~ 4강의 내용과 추가적으로 공부한 내용을 정리한 글입니다. 강좌 [토크ON세미나] 아파치 하둡 입문 왜 하둡인가? 데이터 홍수의 시대, 하둡은 비정형 데이터를 포함한 빅데이터를 다루기 위한 가장 적절한 플랫폼 구글의 GFS 발표 웹 검색엔진을 만들려면 크롤링을 해야 하고 크롤링한 데이터를 저장한 다음에 인덱싱 라이브러리로 색인을 해야 함 하지만 웹에서 수집되는 데이터는 매우 많고 그것은 모두 인덱싱 하면 많은 데이터를 분산/병렬 처리를 해야 하는 이슈 위 같은 문제 해결을 위해 2003년에 구글에서 GFS 아키텍처를 발표함 MapReduce 2004년, 구글 개발자 제프 딘이 MapReduce 논문 발표 구글에서 큰 ..