JUST WRITE

What is Parquet? 본문

ETC

What is Parquet?

천재보단범재 2022. 2. 24. 20:17

Parquet

What is Parquet

Parquet은 OpenSource로 Column 기반 Data 저장 포맷입니다.

복잡한 Data를 대량으로 처리할 수 있는 성능과 효율적인 압축, 인코딩을 제공합니다.

RCFile, ORC처럼 Hadoop에서 사용할 수 있는 Column 기반 저장 형식과 비슷하다.

특징

  • OpenSource.
  • 특정 Programing 언어에 제한되지 않음.
  • Column 기반 Data 저장 포맷
  • OLAP에 사용하기 효과적(전통적인 OLTP Database에 사용 가능)
  • 압축/ 압축해제에 높은 효율
  • 복잡한 Data type 지원
  • 3가지 Metadata 구성
    • file metadata
    • column(chunk) metadata
    • page header metadata

장점

  • Table, Image, Video 등 어느 종류든 Big Data를 저장 가능.
  • Column 기반 Data 저장 포맷으로 Cloud Storage에 효과적
    • Column 단위로 DataType이 비슷하기 때문에 압축에 용이
  • Data 처리 성능 우수

Parquet vs CSV vs JSON

CSV(Comma-separated values)는 Excel이나 Google Sheet에 많이 쓰는 일반적인 저장 포맷이다.

JSON(Javascript Object Notation)은 Web API에서 자주 쓰이는 저장 포맷이다.

Parquet, CSV, JSON을 아래와 같이 비교해보았다.

특징 CSV JSON Parquet
Column 기반 No No Yes
압축여부 Yes Yes Yes
인간 읽기 가능 Yes Yes No
복잡한 Data Structure No Yes Yes

일반적으로 CSV가 쓰기가 가장 빠르고 JSON은 인간에게 이해하기 쉬운 형식으로 되어 있다.

Parquet은 읽기가 가장 빠르다.

Parquet은 WORM(Write Once Read Many)에 최적화되어 있다.

[참고사이트]

728x90
반응형
Comments