반응형

Application

순차적으로나 병렬로 어떤 데이터 처리 로직과 잡의 시리즈를 스케쥴 가능한 SparkContext 의 인스턴스 하나.

보통 Driver 로 쓰이는 클래스 하나를 뜻하는 듯하다.


Job

driver application 에 의해 발생한 action 이나 데이터 저장이 끝난 RDD 에서 transformation 의 완전한 집합.

action 이 일어나기 전까지의 transformation 을 합쳐서 Job 이라고 하는 듯하다.


Stage

독립된 워커 하나에 의해 파이프라인되고 실행된 transformation 의 집합. 대게 transformation 사이의 "read", "shuffle", "action", "save".

Job 사이에 일어나는 연산들을 말하는 듯하다.


Task

데이터 파티션 하나에서 Stage 의 실행. 스케쥴링의 기본 단위.

RDD 가 파티션 된 하나 정도라고 보면 될 듯하다.


참고 : http://www.slideshare.net/AGrishchenko/apache-spark-architecture

위 사이트에서 60~69페이지

반응형
Posted by FeliZ_하늘..
,