반응형

https://github.com/cloudera/hue/tree/master/apps/spark/java


cloudera 에서 만든 hue 안에 있는 Livy


hue 와 디펜던시가 없다 함

반응형
Posted by FeliZ_하늘..
,
반응형

Application

순차적으로나 병렬로 어떤 데이터 처리 로직과 잡의 시리즈를 스케쥴 가능한 SparkContext 의 인스턴스 하나.

보통 Driver 로 쓰이는 클래스 하나를 뜻하는 듯하다.


Job

driver application 에 의해 발생한 action 이나 데이터 저장이 끝난 RDD 에서 transformation 의 완전한 집합.

action 이 일어나기 전까지의 transformation 을 합쳐서 Job 이라고 하는 듯하다.


Stage

독립된 워커 하나에 의해 파이프라인되고 실행된 transformation 의 집합. 대게 transformation 사이의 "read", "shuffle", "action", "save".

Job 사이에 일어나는 연산들을 말하는 듯하다.


Task

데이터 파티션 하나에서 Stage 의 실행. 스케쥴링의 기본 단위.

RDD 가 파티션 된 하나 정도라고 보면 될 듯하다.


참고 : http://www.slideshare.net/AGrishchenko/apache-spark-architecture

위 사이트에서 60~69페이지

반응형
Posted by FeliZ_하늘..
,
반응형


제외되는 값 없이 비교하기 (비교 대상이 없는 경우 다음 값 반환)


반응형

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기  (2) 2023.06.18
spark rest 호출  (0) 2016.02.18
용어정리  (0) 2016.02.06
spark 피어슨 상관계수 계산  (0) 2015.11.09
Apache Spark 1.5.0 설치  (0) 2015.09.21
Posted by FeliZ_하늘..
,
반응형

import org.apache.spark.mllib.linalg._

import org.apache.spark.mllib.stat.Statistics


val r1 = util.Random.shuffle(0 to 10000).map(_.toDouble)

val r2 = util.Random.shuffle(0 to 10000).map(_.toDouble)


val r1RDD = sc.parallelize(r1, 5)

val r2RDD = sc.parallelize(r2, 5)


val corr = Statistics.corr(r1RDD, r2RDD, "pearson")

반응형
Posted by FeliZ_하늘..
,
반응형
일단 내 환경은 Apache Hadoop 2.6.0 을

fl1, fl2, fl3, fl4, fl5

총 5개의 centos 6.7 vm 에 설치하여

5개의 vm 전체에 spark 을 설치하여 standalone 모드로 돌려 볼 생각이다

fl1 - namenode, datanode, history-server, spark master
fl2 - datanode, spark slave
fl3 datanode, spark slave
fl4 datanode, spark slave
fl5 datanode, spark slave


위 사이트에 들어가서 다운로드 받던지 아래를 실행하여 다운받고

적당한 위치로 다운받은 파일을 복사 후 압축을 푼다


그리고 아래를 실행하여 빌드를 한다


내가 설치한 하둡은 2.6.0 이어서 2.6 으로 줬다



혹시 maven perm gen 오류가 나면 아래를

~/.bashrc

~/.profile

~/.bash_profile

/etc/bashrc

/etc/profile

5개 중 하나에 추가한다


난 모든 사용자 공통으로 적용되도록 /etc/bashrc 에 추가했다


적절히 각자 환경에 맞는 곳에 추가한다



그리고 한참(나는 약 1시간 걸렸다) 지나면 빌드가 끝나고


spark-1.5.0-bin-custom-spark.tgz 파일이 생성된다.


파일을 일단 다른 곳에 복사해둔 뒤


소스와 같은 위치에 압축을 풀어준다



그리고 SPARK_HOME 과 PATH 를 등록해준다



그리고나서 아래 설정사항들을 입력한다


slaves



spark-defaults.conf



spark-env.sh




반응형
Posted by FeliZ_하늘..
,