일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- CSV
- Kafka
- JavaScript
- airflow
- Vision
- EC2
- log
- helm
- kubernetes
- aws s3
- java
- MAC address
- Spring
- kubectl
- Packet
- Trino
- jvm
- OS
- grafana
- zookeeper
- Network
- ip
- kubeadm
- AWS
- PostgreSQL
- Operating System
- Python
- CVAT
- tcp
- docker
Archives
- Today
- Total
JUST WRITE
What is Redshift? 본문
What is Redshift?
AWS Redshift는 Amazon Web Service중에 Data Warehousing을 지원하는 솔루션이다.
페타바이트(10^15bytes)급의 대용량 데이터를 처리할수 있다.
큰 Scale의 Data를 Migration할 수 있다.
AWS Interface를 통해 손쉽게 새 Cluster를 구성할 수 있다.
특징
- OLAP 형태의 Column 기반 Database
- PostgreSQL(Version 8.0.2) 기반 -> SQL Query 사용 가능
- MPP(Massively Parallel Processing)를 통한 Fast Querying 제공
- 다수의 Computing 노드가 병렬로 작동하여 Query 처리
- 각 노드는 할당된 Data에 대해서 동일한 Query 처리
- Query Optimizer MPP 특징을 활용하여 최적의 Query 실행
- Data 암호화 제공으로 보안 강화
- Snapshot의 Data Block과 System Metadata까지 암호화 진행
- Data 압축
- Data 압축을 통해서 크기 줄임
- Data Type에 따른 다양한 압축 유형 제공
- Data API 제공 -> Python으로 접근 가능
- 정기적인 Backup 제공
- 다양한 출력 Format 제공 -> 일반적으로 Apache Parquet, ORC(Optimized Row Columnar) 파일
- 자동 Scaling 제공
- AWS Integration
제한점
- 제한적인 Database와의 병렬 Upload
- Amazon S3, EMR, DynamoDB에서 MPP를 통한 병렬 Upload 제공
- Data Unqiuess
- 다른 DataSource에서 Mirgration한 경우 Unqiue 보장 못함
- 특수한 Indexing
- 분산 키, 정렬 키를 통해서 index 작업 진행
- OLAP Performance 제한
- OLTP보다 떨어지는 Performance(Insert, Update, Delete)
[참고사이트]
728x90
반응형
'Cloud' 카테고리의 다른 글
따릉이 대여소 정보 Dashboard 구성(3) - Redshift Table Data 적재 (0) | 2022.02.19 |
---|---|
What is AWS Lambda? (0) | 2022.02.18 |
따릉이 대여소 정보 Dashboard 구성(2) - AWS S3 파일 업로드 (0) | 2022.02.15 |
따릉이 대여소 정보 Dashboard 구성(1) - Python으로 데이터 정제 (0) | 2022.02.14 |
따릉이 대여소 정보 Dashboard 구성(0) - 시작 (0) | 2022.02.13 |
Comments