본문 바로가기
Development/Data Engineering

분산처리의 문제점

by _KHK 2022. 3. 23.

분산처리중 신경써야하는 문제점

 

1. 부분 실패 - 노드 몇개가 프로그램과 상관 없는 이유로 인해 실패

=> RDD의 불변한 성질을 이용해 복구가 가능함

=> 스파크 내부에서 일어나는 과정이라 크게 신경쓰지 않아도 됨.

 

2. 속도★ - 많은 네트워크 통신을 필요로 하는 작업은 속도가 저하

=> 네트워크 통신을 필요로 하는 코드를 후순위에 두고 작성해야한다.

=> 네트워크는 메모리 연산에 비해 100만배 정도 느리다.

 

 

 

참고 이미지

출처 : http://norvig.com/21-days.html

 

댓글