일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- OS
- CVAT
- Spring
- Operating System
- EC2
- kubernetes
- zookeeper
- Vision
- jvm
- Python
- PostgreSQL
- CSV
- Trino
- Network
- airflow
- helm
- aws s3
- AWS
- kubectl
- Kafka
- JavaScript
- grafana
- ip
- kubeadm
- Packet
- MAC address
- java
- docker
- tcp
- log
- Today
- Total
JUST WRITE
What is Parquet? 본문
What is Parquet
Parquet은 OpenSource로 Column 기반 Data 저장 포맷입니다.
복잡한 Data를 대량으로 처리할 수 있는 성능과 효율적인 압축, 인코딩을 제공합니다.
RCFile, ORC처럼 Hadoop에서 사용할 수 있는 Column 기반 저장 형식과 비슷하다.
특징
- OpenSource.
- 특정 Programing 언어에 제한되지 않음.
- Column 기반 Data 저장 포맷
- OLAP에 사용하기 효과적(전통적인 OLTP Database에 사용 가능)
- 압축/ 압축해제에 높은 효율
- 복잡한 Data type 지원
- 3가지 Metadata 구성
- file metadata
- column(chunk) metadata
- page header metadata
장점
- Table, Image, Video 등 어느 종류든 Big Data를 저장 가능.
- Column 기반 Data 저장 포맷으로 Cloud Storage에 효과적
- Column 단위로 DataType이 비슷하기 때문에 압축에 용이
- Data 처리 성능 우수
Parquet vs CSV vs JSON
CSV(Comma-separated values)는 Excel이나 Google Sheet에 많이 쓰는 일반적인 저장 포맷이다.
JSON(Javascript Object Notation)은 Web API에서 자주 쓰이는 저장 포맷이다.
Parquet, CSV, JSON을 아래와 같이 비교해보았다.
특징 | CSV | JSON | Parquet |
Column 기반 | No | No | Yes |
압축여부 | Yes | Yes | Yes |
인간 읽기 가능 | Yes | Yes | No |
복잡한 Data Structure | No | Yes | Yes |
일반적으로 CSV가 쓰기가 가장 빠르고 JSON은 인간에게 이해하기 쉬운 형식으로 되어 있다.
Parquet은 읽기가 가장 빠르다.
Parquet은 WORM(Write Once Read Many)에 최적화되어 있다.
[참고사이트]
Apache Parquet
Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.
parquet.apache.org
Apache Parquet란 무엇입니까?
오픈 소스 파일 형식인 Apache Parquet, 데이터 사이언스에서의 응용 분야, 그리고 CSV 및 TSV 형식과 비교한 장점 등을 자세히 알아보세요.
databricks.com
Spark File Format Showdown – CSV vs JSON vs Parquet
Apache Spark supports many different data sources, such as the ubiquitous Comma Separated Value (CSV) format and web API friendly JavaScript Object Notation (JSON) format. A common format used primarily for big data analytical purposes is Apache Parquet.
www.linkedin.com
'ETC' 카테고리의 다른 글
[후기 - Udemy] 기술블로그로 알아보는 테크니컬 라이팅 (0) | 2024.03.24 |
---|---|
[후기 - 코드트리] 절대 가까울 수 없는 존재였던 코테가 다가왔다 (0) | 2024.02.28 |
Git flow (0) | 2021.10.27 |
SVN to Git Migration (0) | 2021.09.21 |
git config (0) | 2021.09.13 |