테라바이트에서 페타바이트로
Hive, Spark, Impala 등의 SQL on Hadoop 에서 불가능한, Random Access 를 가능케 하는 용도로 HBase, Cassandra, Kudu, Redis 등의 NoSQL 을 많이 사용해왔다.
그리고 많은 변화가 있었고, Container, Streaming, Cloud, Table Format 등 많은 기술들이 나왔다.
5년 전까지만 해도 700~800 TB 정도의 테이블을 HBase 로 잘 운영해왔고, Kudu 로도 프로젝트를 여러번 진행했다.
용량이 3년 후 2배가 될 것이라는 계산을 훨씬 뛰어넘어 그 사이에 용량은 10배 이상 증가했다.
용량이 늘어난 만큼 운영비용도 늘어났고, 신경써야할 것들도 훨씬 많아졌다.
SQL on Hadoop 과 NoSQL 등 대부분에서 공통적으로 발생했던 issue 는 metadata 마저도 조회하는 속도가 느려졌다는 것이다.
Redshift, Synapse, BigQuery, Databricks Lakehouse, Snowflake 등으로 대용량 데이터 분석이 가능하다고 하지만,
S3, Blob Storage, GCS 등의 Cloud Storage 로 전환하는 것이 오히려 더 비싸다는 것은, 이제는 누구나 다 알지만 굳이 나서서 언급하지 않는 불편한 진실이다.
ChatGPT 에게 물어봐도 위에서 언급했던 기술들만 나열할 뿐, 역시나 기대 이상의 Insight 는 얻기 힘들다.
PB 급 테이블을 운영하고 또 앞으로의 10년을 위해 새로운 시도들을 해봐야 할 때다.
'[BigData]' 카테고리의 다른 글
Apache Doris 설치 (0) | 2022.07.15 |
---|