반응형

종류

종류는 아래 2개가 있는듯 한데, 저는 Solutions Architect Champion 을 봤습니다.

자격 요건

  • 2개 이상 Databricks PoC/Project
  • databricks cert 적어도 1개
    • Associate Data Engineer Cert
    • Associate Machine Learning Cert
    • Data Engineer Learning Plan
    • Data Scientist Learning Plan
    • Professional Data Engineer Cert
    • Professional Machine Learning Cert
  • PSA(Partner Solutions Architect) team 의 Partners Champions Program 완료 및 수료
    • Solutions Architect Essentials Badge
  • Panel Interview

혜택

  • Badge
  • 자켓
  • 매년 Data and AI Summit 초대
  • Databricks Champion Slack Channel 초대

절차

  • 2개 이상 Databricks PoC/Project
    • 이전 글에서도 말씀드렸다시피, 일하면서 Databricks PoC/Project 는 자연스럽게 계속 진행하였습니다.
  • databricks cert 적어도 1개
    • 틈 나는대로 자격증 준비해서 Professional Data Engineer Cert, Associate Data Engineer Cert 를 취득했습니다.
  • PSA(Partner Solutions Architect) team 의 Partners Champions Program 완료 및 수료
    • 엄청 가끔 열리기도 하고, professional cert 덕분인지 통과되었습니다.
  • Panel Interview

Interview

  • panel interview 는 1시간정도 진행되었습니다.
  • 약 10개 Domain 별 질문을 몇가지씩 진행합니다.
  • panel 로는 한국분들만 참가했고, databricks partner SA, databricks SA 분들이 참석하고, 한국말로 진행했습니다.

합격

https://www.credential.net/83d3e46d-944b-4770-a492-ed4a1f96f17c#gs.4nx42v

 

반응형
Posted by FeliZ_하늘..
,
반응형

시험 계기

4월 한국 Databricks 행사에서 직원분이 나라면 합격할 수 있을것 같다고 말씀 해주시길래 시험을 봤습니다.

https://www.databricks.com/learn/certification/data-engineer-professional

경력

일단 제가 다니는 회사는 Big Data 를 전문으로 하는 회사이며, Databricks 의 Partner 회사입니다.

저는 올해 개발을 업으로 삼은지 9년차이고, Spark 경력으로는 6개월짜리 Spark Project 3개, 8개월간 Databricks PoC, Project 경험이 있습니다.

그리고 지난 2월에는 Databricks Apache Spark 3.0 Scala 시험에 합격했습니다.

https://www.credential.net/1dd9273f-e73f-4eb3-ab92-c93552b8ab8b#gs.1i4uv3

 

Databricks Certified Associate Developer for Apache Spark 3.0 • HaNeul Kim • Databricks Badges • cHJvZHVjdGlvbjQ1ODQ3

Home of digital credentials

www.credential.net

시험 공부

시험공부는 아래 udemy 강의로 공부했고, 그대로 나오는 문제도 4,5개 되는것 같고, 비슷한 유형으로 나오긴 하지만, 실제 시험 지문은 훨씬 더 길었습니다.

https://www.udemy.com/course/databricks-certified-data-engineer-professional/

https://www.udemy.com/course/practice-exams-databricks-data-engineer-professional-k/

시험 결과

4번의 시험 끝에 결국 대한민국 1호 professional 취득하였습니다!

제 인생 최대의 업적인 것 같습니다!!

https://www.credential.net/bcaf7b1e-b237-4140-9cfe-cef896a8f3b7#gs.1i4uij

 

Databricks Certified Data Engineer Professional • HaNeul Kim • Databricks Badges • cHJvZHVjdGlvbjQ1ODQ3

Home of digital credentials

www.credential.net

반응형
Posted by FeliZ_하늘..
,
반응형

https://github.com/cloudera/hue/tree/master/apps/spark/java


cloudera 에서 만든 hue 안에 있는 Livy


hue 와 디펜던시가 없다 함

반응형
Posted by FeliZ_하늘..
,
반응형

Application

순차적으로나 병렬로 어떤 데이터 처리 로직과 잡의 시리즈를 스케쥴 가능한 SparkContext 의 인스턴스 하나.

보통 Driver 로 쓰이는 클래스 하나를 뜻하는 듯하다.


Job

driver application 에 의해 발생한 action 이나 데이터 저장이 끝난 RDD 에서 transformation 의 완전한 집합.

action 이 일어나기 전까지의 transformation 을 합쳐서 Job 이라고 하는 듯하다.


Stage

독립된 워커 하나에 의해 파이프라인되고 실행된 transformation 의 집합. 대게 transformation 사이의 "read", "shuffle", "action", "save".

Job 사이에 일어나는 연산들을 말하는 듯하다.


Task

데이터 파티션 하나에서 Stage 의 실행. 스케쥴링의 기본 단위.

RDD 가 파티션 된 하나 정도라고 보면 될 듯하다.


참고 : http://www.slideshare.net/AGrishchenko/apache-spark-architecture

위 사이트에서 60~69페이지

반응형
Posted by FeliZ_하늘..
,
반응형


제외되는 값 없이 비교하기 (비교 대상이 없는 경우 다음 값 반환)


반응형

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기  (2) 2023.06.18
spark rest 호출  (0) 2016.02.18
용어정리  (0) 2016.02.06
spark 피어슨 상관계수 계산  (0) 2015.11.09
Apache Spark 1.5.0 설치  (0) 2015.09.21
Posted by FeliZ_하늘..
,
반응형

import org.apache.spark.mllib.linalg._

import org.apache.spark.mllib.stat.Statistics


val r1 = util.Random.shuffle(0 to 10000).map(_.toDouble)

val r2 = util.Random.shuffle(0 to 10000).map(_.toDouble)


val r1RDD = sc.parallelize(r1, 5)

val r2RDD = sc.parallelize(r2, 5)


val corr = Statistics.corr(r1RDD, r2RDD, "pearson")

반응형
Posted by FeliZ_하늘..
,
반응형
일단 내 환경은 Apache Hadoop 2.6.0 을

fl1, fl2, fl3, fl4, fl5

총 5개의 centos 6.7 vm 에 설치하여

5개의 vm 전체에 spark 을 설치하여 standalone 모드로 돌려 볼 생각이다

fl1 - namenode, datanode, history-server, spark master
fl2 - datanode, spark slave
fl3 datanode, spark slave
fl4 datanode, spark slave
fl5 datanode, spark slave


위 사이트에 들어가서 다운로드 받던지 아래를 실행하여 다운받고

적당한 위치로 다운받은 파일을 복사 후 압축을 푼다


그리고 아래를 실행하여 빌드를 한다


내가 설치한 하둡은 2.6.0 이어서 2.6 으로 줬다



혹시 maven perm gen 오류가 나면 아래를

~/.bashrc

~/.profile

~/.bash_profile

/etc/bashrc

/etc/profile

5개 중 하나에 추가한다


난 모든 사용자 공통으로 적용되도록 /etc/bashrc 에 추가했다


적절히 각자 환경에 맞는 곳에 추가한다



그리고 한참(나는 약 1시간 걸렸다) 지나면 빌드가 끝나고


spark-1.5.0-bin-custom-spark.tgz 파일이 생성된다.


파일을 일단 다른 곳에 복사해둔 뒤


소스와 같은 위치에 압축을 풀어준다



그리고 SPARK_HOME 과 PATH 를 등록해준다



그리고나서 아래 설정사항들을 입력한다


slaves



spark-defaults.conf



spark-env.sh




반응형
Posted by FeliZ_하늘..
,