본문 바로가기

분류 전체보기40

Flink CDC - DeltaLake Sink 회사에서 작년 연말 성과 작성이 일찍 끝나서, 그간 못해보거나 해보고 싶은 일들을 해볼 시간적 여유가 생겼다.그래서 FlinkCDC로 S3에 Delta 테이블을 다이렉트 Sink 하는 토이 프로젝트를 진행해 보았다.ㅋㅎㅎㅋ [Githbub 링크] : 조금 더 자세한 코드 및 세부 기록 1. 프로젝트 배경: "표준을 넘어 효율을 탐구하다"Why Flink & CDC?현재 우리 팀은 Databricks 기반의 레이크하우스 환경을 운영 중이며, NoSQL(MongoDB) 파이프라인은 Source → Kafka → Spark Streaming → Delta Lake라는 표준화된 아키텍처를 따르고 있습니다. 이 구조는 안정성과 확장성 측면에서 검증된 훌륭한 아키텍처입니다.하지만 CDC 파이프라인 과제를 기획하면서.. 2026. 1. 29.
데이터 엔지니어로서 3년 4개월 회고 입사 전 회고. "저는 제가 하고 싶은게 따로 있어서요.""그러니까, 뭐""데이터 엔지니어라고 데이터 파이프라인 만들고 뭐 그런,,""알겠어. 잘해봐" 21년 겨울 지하철에서 전화를 받는다.한 달 프리랜서 계약으로 프로젝트를 끝마친 내게, 사장님은 마음에 든다며 회사에서 같이 일 해보자고 연봉과 함께 제안하였다. 나는 통화를 마친 그 날 부터, 제대로 데이터 엔지니어로서 필요한 개발 및 지식을 공부하기 시작했다. 22년 9월.단순 개발 이력도, 데이터 엔지니어 이력도 없던 내가, 데이터 엔지니어로 입사하게 된다. 목표하던 회사에, 목표하던 직업으로 근무하게 되어 기쁨도 잠시, 모델링 스페셜리스트들이 만들어 둔 쿼리들을 보게 된다.그때 기분은 우물 안 개구리가 우물을 나와 연못을 건너가기로 한다.저 뗏목.. 2026. 1. 10.
나만의 비장의 무기 만들기! 첫술에 배부르랴! 욕심은 많고 마음은 급하다. 최근 AWS환경에서의 클라우드 파이프 라인을 익히고 있다. 제대로 클라우드 환경을 사용하고, 익히고 있다 보니까 너무 어렵고 막막하다는 느낌을 받았다. 항상 내 인생을 돌이켜 생각해봤을 때, 어떤 것이든 처음 시도하고 공부하는 것은 무척이나 괴로웠고 큰 장애물에 앞이 막막한 느낌을 받았었다. 그런 마음의 장벽을 이겨내고 한 발자국 도전의 발걸음을 떼었을 때 비로소 길이 나타나기 시작한다. 뜻이 있는 곳에 길이 있다. 훗날 나만의 비장의 무기가 되어 줄 거라고 생각한다. 8월 한달간 GCP도 함께 익힐 계획이 있다. 페스타에서 여름방학 대학생들을 대상으로 토요일마다 GCP를 익히는 과정인데 5천원밖에 안하길래 냉큼 신청했다. 7, 8월의 목표는 구글 클라우드 .. 2022. 7. 20.
ETL이란? 데이터 엔지니어가 되려고 하는 나는 가장 기본을 놓치고 있었다. 새로운 기술, 흥미로운 오픈소스를 공부하는 것 이전에 가장 중요한 ETL의 개념을 놓치고 있었다. 누군가 ETL이 뭔지 설명해달라는 물음에 제대로 답하지 못했다면 긴장해서가 아니라 잘 모르고 있는 것임을 인정해야 한다. 보통 데이터 엔지니어의 가장 주요한 업무는 결국 ETL이라고 생각한다. 나는 놓치고 있던 데이터 엔지니어링의 기본 중의 기본 ETL을 정리해보려고 한다. 여러 곳에서 ETL이란 무엇인가를 잘 설명해주고 있는데, 나는 스파크를 만들었던 개발자들이 설립한 Databricks라는 곳에서 정의되고 설명해놓은 것을 토대로 간결하게 요약해 보았다. https://databricks.com/kr/glossary/extract-transf.. 2022. 7. 8.
겸손해지는 요즘 더닝 크루거 효과라는 게 있다. 지식과 자신감에 관련된 그래프인데 지식이 얕을 때는 자신감이 충만하다. 하지만 얕은 지식에서 조금 더 나아가 계속 지식을 쌓다 보면 깊은 골짜기에 빠진다. 이 깊디 깊은 골짜기는 자신감의 급격한 하락을 의미한다. 최근 나는 데이터 파이프라인의 전체적인 아키텍처를 어느 정도 이해했고, 나 스스로 뭔가 해볼 수 있을 것 같다는 자신감이 생겼었다. 그래서 나는 내가 학습한 것을 잘 정리해서 신입 데이터 엔지니어 취업의 문을 두드려보기로 했다. 스타트업 같은 경우는 데이터 엔지니어는 신입을 뽑는 경우가 많이 없기 때문에 2~3년 이상차를 뽑는 공고에도 여럿 지원을 해봤다. 물론 학습한 것만으로는 당연히 부족하고, 나 혼자 데이터 파이프라인을 구체적으로 설계한 부분이 없기 때문에 .. 2022. 6. 28.
tweepy 로 트위터 API V2 스트리밍 하기 트위터의 API V2가 추가된 지 어느 정도 시간이 흘렀고, tweepy가 올 22년 하반기부터 본격적으로 V2 위주로 업데이트가 될 것으로 보인다. 그래서 tweepy를 이용한 기존의 Stream 메서드들이 deprecate 예정이고, 따라서 V2 위주의 코드 업데이트가 필요하다. 단순한 Stream 데이터 연습을 하기위해서 트위터 api를 사용해보려다가 V1.1과 V2에서 오랜 시간 삽질을 했다. 그 덕분에 V1.1과 V2가 어떤 차이가 있는지 대강 가늠할 수 있게 되었다. 그래서 본 게시물은 둘이 어떤 차이점이 있는지, V2를 이용해 tweepy로 스트림하는 방법을 작성하려고 한다. Twitter API V1.1 과 V2의 차이점 tweepy로 스트림 코드를 작성하기 전에 V1.1 과 V2의 차이점.. 2022. 5. 25.