일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- kubernetes
- tcp
- MAC address
- java
- Python
- grafana
- Spring
- airflow
- AWS
- Packet
- CSV
- kubectl
- CVAT
- Vision
- zookeeper
- kubeadm
- helm
- Network
- Kafka
- log
- Operating System
- ip
- docker
- PostgreSQL
- EC2
- jvm
- Trino
- aws s3
- JavaScript
- OS
- Today
- Total
목록hdfs (2)
JUST WRITE
MapReduce MapReduce는 Hadoop HDFS 내 Data를 사용하여 처리하는 Progarmming Model이다. Hadoop내 분산처리 엔진 역할을 하는 중요한 Component이다. MapReduce는 2004년 Google에서 발표한 논문에서 시작되었다. Hadoop MapReduce는 이 논문을 바탕으로 구현한 Framework이다. 데이터 분산 처리에 적합하며 key-value 알고리즘이 핵심이다. 장단점 장점 단순하고 사용 편리 유연성 -> 특정 데이터 모델이나 스키마, 질의에 의존적이지 않음 저장 구조의 독립성 데이터 복제에 기반한 내구성과 재수행을 통한 내고장성 확보 높은 확장성 단점 고정된 단일 데이터 흐름 기존 DBMS보다 불편한 스키마 질의 단순한 스케줄링 작은 데이터 ..
HDFS Hadoop Distributed File System 일반적인 Hardware들로 구성된 Cluster에서 대용량 파일을 처리하게 도와주는 시스템이다. BigData 시대에 Data의 크기는 워낙 방대하다. 그러다 보니 하나의 좋은 성능의 Server로는 저장과 처리가 힘들고 비용도 크다. 대신 보통 성능의 Server를 여러 대를 두고 저장, 처리를 하면 훨씬 효율적이다. HDFS는 큰 Data를 분산해서 처리하기 좋은 시스템이다. HDFS는 GFS(Google File System) Architecture 에서 시작되었다. 위 그림에서 보면 Master-Slave 구조를 갖는다. GFS master가 Master, GFS chunkserver가 Slave라고 보면 된다. GFS chunks..