일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- airflow
- Trino
- Network
- Python
- CSV
- docker
- kubeadm
- Vision
- zookeeper
- helm
- log
- ip
- JavaScript
- jvm
- PostgreSQL
- AWS
- java
- Kafka
- grafana
- Operating System
- OS
- aws s3
- Spring
- tcp
- EC2
- Packet
- kubernetes
- kubectl
- MAC address
- CVAT
Archives
- Today
- Total
JUST WRITE
What is Parquet? 본문
What is Parquet
Parquet은 OpenSource로 Column 기반 Data 저장 포맷입니다.
복잡한 Data를 대량으로 처리할 수 있는 성능과 효율적인 압축, 인코딩을 제공합니다.
RCFile, ORC처럼 Hadoop에서 사용할 수 있는 Column 기반 저장 형식과 비슷하다.
특징
- OpenSource.
- 특정 Programing 언어에 제한되지 않음.
- Column 기반 Data 저장 포맷
- OLAP에 사용하기 효과적(전통적인 OLTP Database에 사용 가능)
- 압축/ 압축해제에 높은 효율
- 복잡한 Data type 지원
- 3가지 Metadata 구성
- file metadata
- column(chunk) metadata
- page header metadata
장점
- Table, Image, Video 등 어느 종류든 Big Data를 저장 가능.
- Column 기반 Data 저장 포맷으로 Cloud Storage에 효과적
- Column 단위로 DataType이 비슷하기 때문에 압축에 용이
- Data 처리 성능 우수
Parquet vs CSV vs JSON
CSV(Comma-separated values)는 Excel이나 Google Sheet에 많이 쓰는 일반적인 저장 포맷이다.
JSON(Javascript Object Notation)은 Web API에서 자주 쓰이는 저장 포맷이다.
Parquet, CSV, JSON을 아래와 같이 비교해보았다.
특징 | CSV | JSON | Parquet |
Column 기반 | No | No | Yes |
압축여부 | Yes | Yes | Yes |
인간 읽기 가능 | Yes | Yes | No |
복잡한 Data Structure | No | Yes | Yes |
일반적으로 CSV가 쓰기가 가장 빠르고 JSON은 인간에게 이해하기 쉬운 형식으로 되어 있다.
Parquet은 읽기가 가장 빠르다.
Parquet은 WORM(Write Once Read Many)에 최적화되어 있다.
[참고사이트]
728x90
반응형
'ETC' 카테고리의 다른 글
[후기 - Udemy] 기술블로그로 알아보는 테크니컬 라이팅 (0) | 2024.03.24 |
---|---|
[후기 - 코드트리] 절대 가까울 수 없는 존재였던 코테가 다가왔다 (0) | 2024.02.28 |
Git flow (0) | 2021.10.27 |
SVN to Git Migration (0) | 2021.09.21 |
git config (0) | 2021.09.13 |
Comments