본문 바로가기

MLOps/Data

(5)
꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 꼬리에 꼬리를 무는 Spark와 RDD, DataFrame, Dataset 이야기 서론 실습이 더 중요하지만... 이론적으로 공부했다. 노트북아 힘내렴 Spark에서 사용할 수 있는 데이터 형태에는 뭐가 있나? Apache Spark에서는 RDD(Resilient Distributed Dataset), DataFrame 및 Dataset 3가지 데이터 형태를 사용 가능 Spark의 기본 컨셉이 RDD(Resilent Distributed Datasets) 임 3개 중에 뭐 사용? 데이터 특성에 따라 적합한 데이터 형태를 선택해야 함 1. RDD (Resilient Distributed Dataset) Spark에서 가장 초기에 개발된 데이터 형태 불변성과 탄력성을 가지는 분산된 객체 컬렉션 RDD는 직접..
지우개 아니고 Erase coding in hadoop 3.x Erase Coding 이란? What's the Erase coding in hadoop 3.x!! Erase Coding 왜 사용? HDFS 기본 복제 체계는 스토리지 공간 및 기타 리소스에 200% 오버헤드가 있음. 기본적으로 1개의 원본과 2개의 복제본을 생성하기 때문임 따라서 동일한 수준의 내결함성을 제공하고 훨씬 적은 저장 공간을 사용하는 EC(Erase Coding)을 사용 Erase Coding Schema 아래는 하둡 문서에서 가져왔다. The EC schema: This includes the numbers of data and parity blocks in an EC group (e.g., 6+3), as well as the codec algorithm (e.g., Reed-Solo..
아파치 하둡 입문 강좌 정리 아파치 하둡 입문 강좌 정리 이번 포스팅은 [토크 ON세미나] 아파치 하둡 입문 1강 ~ 4강의 내용과 추가적으로 공부한 내용을 정리한 글입니다. 강좌 [토크ON세미나] 아파치 하둡 입문 왜 하둡인가? 데이터 홍수의 시대, 하둡은 비정형 데이터를 포함한 빅데이터를 다루기 위한 가장 적절한 플랫폼 구글의 GFS 발표 웹 검색엔진을 만들려면 크롤링을 해야 하고 크롤링한 데이터를 저장한 다음에 인덱싱 라이브러리로 색인을 해야 함 하지만 웹에서 수집되는 데이터는 매우 많고 그것은 모두 인덱싱 하면 많은 데이터를 분산/병렬 처리를 해야 하는 이슈 위 같은 문제 해결을 위해 2003년에 구글에서 GFS 아키텍처를 발표함 MapReduce 2004년, 구글 개발자 제프 딘이 MapReduce 논문 발표 구글에서 큰 ..
What's the Rack Awareness in HDFS What's the Rack Awareness in HDFS 랙 인지란 무엇인가? Q. Rack 이란? A. DataNode의 물리적인 모음 Q. 하둡 클러스터 구성은? A. 여러 개의 Rack으로 구성 Q. Rack의 구성? A. 네트워크 Switch + N개의 DataNode으로 구성 즉 서로 가까이 있고 동일한 네트워크 스위치에 연결된 DataNode 모음 Q. Rack 마다 DataNode 몇 개 들어가나? A. 3~40개라는데 회사마다 다를것 같음 Q. Rack Awareness? A. Rack 정보를 기반으로 가장 가까운 DataNode를 선택하는 것 Q. Rack 정보는 뭔데? A. NameNode가 가지고 있는 DataNode의 Rack ID Q. 가장 가까운 DataNode를 왜 선택해야..
[데이따] 하둡, 스파크, 에어플로우.. 개고생 , Let's go 하둡, 스파크, 에어플로우(feat. Docker) 수많은 시련. 끝에 하둡이란 괴물을 설치하고 로컬에 띄우는 것을 성공했다.. 감격스러워서 사진을 남기고 설치과정을 정리해서 올려야겠다. 느끼는 건데, 역시 도커는 최고다.. 첫 시도할 때, "아 그냥 처음부터 다시 하자"의 처음의 기준이 달라진다. (컴퓨터 사양이 안 좋아서 3개 정도만 로컬에 두는..)