반응형

종류

종류는 아래 2개가 있는듯 한데, 저는 Solutions Architect Champion 을 봤습니다.

자격 요건

  • 2개 이상 Databricks PoC/Project
  • databricks cert 적어도 1개
    • Associate Data Engineer Cert
    • Associate Machine Learning Cert
    • Data Engineer Learning Plan
    • Data Scientist Learning Plan
    • Professional Data Engineer Cert
    • Professional Machine Learning Cert
  • PSA(Partner Solutions Architect) team 의 Partners Champions Program 완료 및 수료
    • Solutions Architect Essentials Badge
  • Panel Interview

혜택

  • Badge
  • 자켓
  • 매년 Data and AI Summit 초대
  • Databricks Champion Slack Channel 초대

절차

  • 2개 이상 Databricks PoC/Project
    • 이전 글에서도 말씀드렸다시피, 일하면서 Databricks PoC/Project 는 자연스럽게 계속 진행하였습니다.
  • databricks cert 적어도 1개
    • 틈 나는대로 자격증 준비해서 Professional Data Engineer Cert, Associate Data Engineer Cert 를 취득했습니다.
  • PSA(Partner Solutions Architect) team 의 Partners Champions Program 완료 및 수료
    • 엄청 가끔 열리기도 하고, professional cert 덕분인지 통과되었습니다.
  • Panel Interview

Interview

  • panel interview 는 1시간정도 진행되었습니다.
  • 약 10개 Domain 별 질문을 몇가지씩 진행합니다.
  • panel 로는 한국분들만 참가했고, databricks partner SA, databricks SA 분들이 참석하고, 한국말로 진행했습니다.

합격

https://www.credential.net/83d3e46d-944b-4770-a492-ed4a1f96f17c#gs.4nx42v

 

반응형
Posted by FeliZ_하늘..
,
반응형

시험 계기

4월 한국 Databricks 행사에서 직원분이 나라면 합격할 수 있을것 같다고 말씀 해주시길래 시험을 봤습니다.

https://www.databricks.com/learn/certification/data-engineer-professional

경력

일단 제가 다니는 회사는 Big Data 를 전문으로 하는 회사이며, Databricks 의 Partner 회사입니다.

저는 올해 개발을 업으로 삼은지 9년차이고, Spark 경력으로는 6개월짜리 Spark Project 3개, 8개월간 Databricks PoC, Project 경험이 있습니다.

그리고 지난 2월에는 Databricks Apache Spark 3.0 Scala 시험에 합격했습니다.

https://www.credential.net/1dd9273f-e73f-4eb3-ab92-c93552b8ab8b#gs.1i4uv3

 

Databricks Certified Associate Developer for Apache Spark 3.0 • HaNeul Kim • Databricks Badges • cHJvZHVjdGlvbjQ1ODQ3

Home of digital credentials

www.credential.net

시험 공부

시험공부는 아래 udemy 강의로 공부했고, 그대로 나오는 문제도 4,5개 되는것 같고, 비슷한 유형으로 나오긴 하지만, 실제 시험 지문은 훨씬 더 길었습니다.

https://www.udemy.com/course/databricks-certified-data-engineer-professional/

https://www.udemy.com/course/practice-exams-databricks-data-engineer-professional-k/

시험 결과

4번의 시험 끝에 결국 대한민국 1호 professional 취득하였습니다!

제 인생 최대의 업적인 것 같습니다!!

https://www.credential.net/bcaf7b1e-b237-4140-9cfe-cef896a8f3b7#gs.1i4uij

 

Databricks Certified Data Engineer Professional • HaNeul Kim • Databricks Badges • cHJvZHVjdGlvbjQ1ODQ3

Home of digital credentials

www.credential.net

반응형
Posted by FeliZ_하늘..
,

TB to PB

[BigData] 2023. 3. 30. 00:46
반응형

테라바이트에서 페타바이트로

 

Hive, Spark, Impala 등의 SQL on Hadoop 에서 불가능한, Random Access 를 가능케 하는 용도로 HBase, Cassandra, Kudu, Redis 등의 NoSQL 을 많이 사용해왔다.
그리고 많은 변화가 있었고, Container, Streaming, Cloud, Table Format 등 많은 기술들이 나왔다.

5년 전까지만 해도 700~800 TB 정도의 테이블을 HBase 로 잘 운영해왔고, Kudu 로도 프로젝트를 여러번 진행했다.
용량이 3년 후 2배가 될 것이라는 계산을 훨씬 뛰어넘어 그 사이에 용량은 10배 이상 증가했다.
용량이 늘어난 만큼 운영비용도 늘어났고, 신경써야할 것들도 훨씬 많아졌다.
SQL on Hadoop 과 NoSQL 등 대부분에서 공통적으로 발생했던 issue 는 metadata 마저도 조회하는 속도가 느려졌다는 것이다.

Redshift, Synapse, BigQuery, Databricks Lakehouse, Snowflake 등으로 대용량 데이터 분석이 가능하다고 하지만,
S3, Blob Storage, GCS 등의 Cloud Storage 로 전환하는 것이 오히려 더 비싸다는 것은, 이제는 누구나 다 알지만 굳이 나서서 언급하지 않는 불편한 진실이다.
ChatGPT 에게 물어봐도 위에서 언급했던 기술들만 나열할 뿐, 역시나 기대 이상의 Insight 는 얻기 힘들다.
PB 급 테이블을 운영하고 또 앞으로의 10년을 위해 새로운 시도들을 해봐야 할 때다.

반응형

'[BigData]' 카테고리의 다른 글

Apache Doris 설치  (0) 2022.07.15
Posted by FeliZ_하늘..
,