분산처리중 신경써야하는 문제점
1. 부분 실패 - 노드 몇개가 프로그램과 상관 없는 이유로 인해 실패
=> RDD의 불변한 성질을 이용해 복구가 가능함
=> 스파크 내부에서 일어나는 과정이라 크게 신경쓰지 않아도 됨.
2. 속도★ - 많은 네트워크 통신을 필요로 하는 작업은 속도가 저하
=> 네트워크 통신을 필요로 하는 코드를 후순위에 두고 작성해야한다.
=> 네트워크는 메모리 연산에 비해 100만배 정도 느리다.
참고 이미지
'Development > Data Engineering' 카테고리의 다른 글
[Apache Airflow] 아파치 에어플로우란? (0) | 2022.04.16 |
---|---|
[Apache Spark] 스파크의 구조와 실행흐름 이해하기 (0) | 2022.03.30 |
[Apache Spark] 아파치 스파크 배경, 그리고 이해 (0) | 2022.03.22 |
병렬처리와 분산처리 (0) | 2022.03.18 |
[Apache Kafka] 아파치 카프카란 (0) | 2022.01.05 |
댓글