본문 바로가기

전체 글38

[Apache Flink] 플링크 v1.15 TableEnviroment execute() 메서드 삭제 플링크의 역사가 아직 짧기 때문에 버전업이 꾸준히 그리고 빠르게 진행되고 있는것 같다. 덕분에 매번 새로운 버전마다 바뀌고 삭제되고 추가되는 메서드들이 굉장히 많다. 현재 플링크 정식 릴리즈 중 가장 최신 버전인 v1.15 부터는 TableEnviroment에서 execute() 메서드가 삭제되었다. 플링크 1.15v 릴리즈 docs중 execute메서드 삭제 관련 링크 Release Notes - Flink 1.15 Release notes - Flink 1.15 # These release notes discuss important aspects, such as configuration, behavior, or dependencies, that changed between Flink 1.14 and .. 2022. 5. 12.
[12시간 삽질기].. 아나콘다 파이썬 버전 변경 오류 주의점 본문은 삽질기, 주의점 요약은 아래 있습니다. 아파치 플링크를 공부하기 위해 플링크를 다운받고 아나콘다 환경에서 pip를 통해 플링크를 설치하려고 했다. 기존 내 콘다 환경은 python3.9 이다. pip 를 통해 flink를 설치중 numpy 버전이 맞지 않아서 설치가 되지 않는다고 했다. 새벽동안 너무 삽질을 오래해서 기억이 가물가물한데 오류 내용은 요구되는 numpy 버전이 python < 3.7 에 호환된다는 내용이었다. 그래서 처음 나는 콘다 환경의 파이썬 버전만 변경하면 되는줄 알았다. 파이썬 버전을 변경 하려고 했는데 solving environment failed with initial frozen solve. retrying with flexible solve 이 에러문구만 계속해서 나.. 2022. 5. 11.
[Python] List 연산 주의점 알고리즘 문제 풀이 중 거의 18시간 동안 답이 안 나온 문제가 있었다. 아무리 생각해도 오류가 없는데 왜 답이 안되는지 코드 한 줄 한 줄 뜯어보면서 결국엔 알아냈다. 원인은 파이썬 리스트 연산 때문이었다. 아래 두 개의 코드는 결과 출력 값을 보면 똑같다. 하지만 다음 코드를 적용하면 어떤 결과가 나올까? result[2][1] = "A" result_lcph[2][1] = "A" 결과 출력 내가 처음 예상한 결과 값은 result와 result_lcph 둘 모두 오른쪽 결과처럼 나왔어야 했다. 하지만 보다시피 전혀 다른 결과를 낸다. 이러한 원인을 공부하고 블로그에 게시하기 위해 파이썬 docs를 찾아본 결과 정확하게 "이것은 종종 새 파이썬 프로그래머들을 괴롭힙니다"라는 문구가 있다. 리스트에 리.. 2022. 5. 4.
[Docker] M1 맥 도커 confluentinc/cp-kafka 대체 이미지 m1 맥은 arm64 아키텍쳐이다. 그러나 현재 confluent 에서 제공하는 카프카 이미지는 amd64만 지원하고 있다. 정식으로 m1 맥을 지원하는 이미지를 아직 출시하지 않아서 기존 confluent사의 kafka 이미지를 사용하면 아키텍쳐가 맞지 않다고 경고 메시지가 뜨게 된다. 기존 이미지가 실행에는 큰 문제가 없을 것으로 알고 있지만 공식 출시 전까지 대체 할 수 있는 arm64 용 이미지를 찾아보게 되었다. m1 맥이 사용할 수 있는 arm64 아키텍쳐를 지원하는 kafka 이미지를 찾았고, 링크를 남겨둔다. https://github.com/confluentinc/kafka-images/issues/80#issuecomment-1108911026 Add images for ARM 64 ·.. 2022. 4. 28.
[Apache Spark] 아파치 스파크 RDD란? RDD를 이해하면 아파치 스파크를 90% 이해했다고 한다. 스파크를 계속 사용하면서 알듯 말 듯 RDD를 다시 한번 공부하면서 게시글을 작성해 보려 한다. Spark RDD Resilient Distributed Dataset (RDD) 탄력적인 분산 데이터 셋 Resilient 는 탄력적이라는 뜻이 있다. 데이터를 병렬처리하는 스파크의 일부 노드에서 데이터를 처리하는 중에 문제가 발생하면 문제를 회복 할 수 있다는 것을 뜻한다. 데이터를 병렬 처리 중 어떤 노드에서 문제가 발생해도 데이터를 손실 없이 회복 할 수 있는 이유는 무엇일까? 이 이유를 알기 위해서는 RDD의 특징을 앎으로서 이해 할 수 있다. RDD의 특징 1. 데이터 추상화 스파크는 여러 클러스트에서 데이터를 하나의 파일처럼 다룬다. 어떤.. 2022. 4. 19.