본문 바로가기

분류 전체보기38

나만의 비장의 무기 만들기! 첫술에 배부르랴! 욕심은 많고 마음은 급하다. 최근 AWS환경에서의 클라우드 파이프 라인을 익히고 있다. 제대로 클라우드 환경을 사용하고, 익히고 있다 보니까 너무 어렵고 막막하다는 느낌을 받았다. 항상 내 인생을 돌이켜 생각해봤을 때, 어떤 것이든 처음 시도하고 공부하는 것은 무척이나 괴로웠고 큰 장애물에 앞이 막막한 느낌을 받았었다. 그런 마음의 장벽을 이겨내고 한 발자국 도전의 발걸음을 떼었을 때 비로소 길이 나타나기 시작한다. 뜻이 있는 곳에 길이 있다. 훗날 나만의 비장의 무기가 되어 줄 거라고 생각한다. 8월 한달간 GCP도 함께 익힐 계획이 있다. 페스타에서 여름방학 대학생들을 대상으로 토요일마다 GCP를 익히는 과정인데 5천원밖에 안하길래 냉큼 신청했다. 7, 8월의 목표는 구글 클라우드 .. 2022. 7. 20.
ETL이란? 데이터 엔지니어가 되려고 하는 나는 가장 기본을 놓치고 있었다. 새로운 기술, 흥미로운 오픈소스를 공부하는 것 이전에 가장 중요한 ETL의 개념을 놓치고 있었다. 누군가 ETL이 뭔지 설명해달라는 물음에 제대로 답하지 못했다면 긴장해서가 아니라 잘 모르고 있는 것임을 인정해야 한다. 보통 데이터 엔지니어의 가장 주요한 업무는 결국 ETL이라고 생각한다. 나는 놓치고 있던 데이터 엔지니어링의 기본 중의 기본 ETL을 정리해보려고 한다. 여러 곳에서 ETL이란 무엇인가를 잘 설명해주고 있는데, 나는 스파크를 만들었던 개발자들이 설립한 Databricks라는 곳에서 정의되고 설명해놓은 것을 토대로 간결하게 요약해 보았다. https://databricks.com/kr/glossary/extract-transf.. 2022. 7. 8.
겸손해지는 요즘 더닝 크루거 효과라는 게 있다. 지식과 자신감에 관련된 그래프인데 지식이 얕을 때는 자신감이 충만하다. 하지만 얕은 지식에서 조금 더 나아가 계속 지식을 쌓다 보면 깊은 골짜기에 빠진다. 이 깊디 깊은 골짜기는 자신감의 급격한 하락을 의미한다. 최근 나는 데이터 파이프라인의 전체적인 아키텍처를 어느 정도 이해했고, 나 스스로 뭔가 해볼 수 있을 것 같다는 자신감이 생겼었다. 그래서 나는 내가 학습한 것을 잘 정리해서 신입 데이터 엔지니어 취업의 문을 두드려보기로 했다. 스타트업 같은 경우는 데이터 엔지니어는 신입을 뽑는 경우가 많이 없기 때문에 2~3년 이상차를 뽑는 공고에도 여럿 지원을 해봤다. 물론 학습한 것만으로는 당연히 부족하고, 나 혼자 데이터 파이프라인을 구체적으로 설계한 부분이 없기 때문에 .. 2022. 6. 28.
tweepy 로 트위터 API V2 스트리밍 하기 트위터의 API V2가 추가된 지 어느 정도 시간이 흘렀고, tweepy가 올 22년 하반기부터 본격적으로 V2 위주로 업데이트가 될 것으로 보인다. 그래서 tweepy를 이용한 기존의 Stream 메서드들이 deprecate 예정이고, 따라서 V2 위주의 코드 업데이트가 필요하다. 단순한 Stream 데이터 연습을 하기위해서 트위터 api를 사용해보려다가 V1.1과 V2에서 오랜 시간 삽질을 했다. 그 덕분에 V1.1과 V2가 어떤 차이가 있는지 대강 가늠할 수 있게 되었다. 그래서 본 게시물은 둘이 어떤 차이점이 있는지, V2를 이용해 tweepy로 스트림하는 방법을 작성하려고 한다. Twitter API V1.1 과 V2의 차이점 tweepy로 스트림 코드를 작성하기 전에 V1.1 과 V2의 차이점.. 2022. 5. 25.
tmux 아나콘다 환경으로 변경하기 한 화면에 터미널을 여러 등분해서 볼 수 있게 해주는 프로그램으로 tmux가 있다. brew를 통해 tmux를 설치하고 실행했는데 콘다 환경은 실행되어 있지만 실제로 파이썬의 경로는 anaconda가 아닌 brew를 통해 실행되고 있었다. 다행히 문제를 해결할 수 있는 방법을 찾았고, 조금 귀찮지만 분할된 터미널마다 아래 명령어를 실행해주면 된다. $ [[ -z $TMUX ]] || conda deactivate; conda activate base 명령어를 실행하고 난 뒤 which python3 파이썬 경로를 확인하는 명령어를 실행하고 파이썬 경로가 아나콘다 환경의 파이썬인지 확인해본다. 명령어 실행 전 명령어 실행 후 도움을 찾은 링크 https://github.com/conda/conda/issu.. 2022. 5. 13.
[Apache Flink] 플링크 v1.15 TableEnviroment execute() 메서드 삭제 플링크의 역사가 아직 짧기 때문에 버전업이 꾸준히 그리고 빠르게 진행되고 있는것 같다. 덕분에 매번 새로운 버전마다 바뀌고 삭제되고 추가되는 메서드들이 굉장히 많다. 현재 플링크 정식 릴리즈 중 가장 최신 버전인 v1.15 부터는 TableEnviroment에서 execute() 메서드가 삭제되었다. 플링크 1.15v 릴리즈 docs중 execute메서드 삭제 관련 링크 Release Notes - Flink 1.15 Release notes - Flink 1.15 # These release notes discuss important aspects, such as configuration, behavior, or dependencies, that changed between Flink 1.14 and .. 2022. 5. 12.