반응형
Application
순차적으로나 병렬로 어떤 데이터 처리 로직과 잡의 시리즈를 스케쥴 가능한 SparkContext 의 인스턴스 하나.
보통 Driver 로 쓰이는 클래스 하나를 뜻하는 듯하다.
Job
driver application 에 의해 발생한 action 이나 데이터 저장이 끝난 RDD 에서 transformation 의 완전한 집합.
action 이 일어나기 전까지의 transformation 을 합쳐서 Job 이라고 하는 듯하다.
Stage
독립된 워커 하나에 의해 파이프라인되고 실행된 transformation 의 집합. 대게 transformation 사이의 "read", "shuffle", "action", "save".
Job 사이에 일어나는 연산들을 말하는 듯하다.
Task
데이터 파티션 하나에서 Stage 의 실행. 스케쥴링의 기본 단위.
RDD 가 파티션 된 하나 정도라고 보면 될 듯하다.
참고 : http://www.slideshare.net/AGrishchenko/apache-spark-architecture
위 사이트에서 60~69페이지
반응형
'[BigData] > [Apache Spark]' 카테고리의 다른 글
Databricks Data Engineer Professional Exam 후기 (2) | 2023.06.18 |
---|---|
spark rest 호출 (0) | 2016.02.18 |
현재값과 다음값 비교 자바 버전 compare current value & next value java version (0) | 2015.11.13 |
spark 피어슨 상관계수 계산 (0) | 2015.11.09 |
Apache Spark 1.5.0 설치 (0) | 2015.09.21 |