왕초보 프로그래머 Sky

TB to PB

[BigData] 2023. 3. 30. 00:46

테라바이트에서 페타바이트로

Hive, Spark, Impala 등의 SQL on Hadoop 에서 불가능한, Random Access 를 가능케 하는 용도로 HBase, Cassandra, Kudu, Redis 등의 NoSQL 을 많이 사용해왔다.
그리고 많은 변화가 있었고, Container, Streaming, Cloud, Table Format 등 많은 기술들이 나왔다.

5년 전까지만 해도 700~800 TB 정도의 테이블을 HBase 로 잘 운영해왔고, Kudu 로도 프로젝트를 여러번 진행했다.
용량이 3년 후 2배가 될 것이라는 계산을 훨씬 뛰어넘어 그 사이에 용량은 10배 이상 증가했다.
용량이 늘어난 만큼 운영비용도 늘어났고, 신경써야할 것들도 훨씬 많아졌다.
SQL on Hadoop 과 NoSQL 등 대부분에서 공통적으로 발생했던 issue 는 metadata 마저도 조회하는 속도가 느려졌다는 것이다.

Redshift, Synapse, BigQuery, Databricks Lakehouse, Snowflake 등으로 대용량 데이터 분석이 가능하다고 하지만,
S3, Blob Storage, GCS 등의 Cloud Storage 로 전환하는 것이 오히려 더 비싸다는 것은, 이제는 누구나 다 알지만 굳이 나서서 언급하지 않는 불편한 진실이다.
ChatGPT 에게 물어봐도 위에서 언급했던 기술들만 나열할 뿐, 역시나 기대 이상의 Insight 는 얻기 힘들다.
PB 급 테이블을 운영하고 또 앞으로의 10년을 위해 새로운 시도들을 해봐야 할 때다.

'[BigData]' 카테고리의 다른 글

Apache Doris 설치 (0)	2022.07.15

Posted by FeliZ_하늘..

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

왕초보 프로그래머 Sky

TB to PB

'[BigData]' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바