일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CVAT
- jvm
- kubeadm
- log
- Vision
- Kafka
- Packet
- grafana
- EC2
- JavaScript
- tcp
- airflow
- MAC address
- Trino
- PostgreSQL
- zookeeper
- kubectl
- CSV
- Python
- aws s3
- ip
- AWS
- docker
- OS
- Network
- helm
- Spring
- Operating System
- java
- kubernetes
- Today
- Total
목록mapreduce (2)
JUST WRITE
YARN Yet Another Resource Negotiator Hadoop 1.0과 Hadoop 2.0에서 가장 큰 차이점은 YARN이다. MapReduce는 4000 Node 이상의 매우 큰 Cluster에서 병목현상 이슈가 있었다. 이 병목 이슈를 해결하기 위해 YARN이 도입되었다. Cluster Resouce Management와 Data Processing을 분리하였다. YARN에서 Cluster Resouce Management를 담당한다. MapReduce 외에 다른 Data Processing 방식도 수용 가능하다. 동작 Resource Manager Client가 요청한 Application마다 자원을 관리한다. Hadoop Cluster 내 1개 존재한다. 전체 Resouce 상태를..
MapReduce MapReduce는 Hadoop HDFS 내 Data를 사용하여 처리하는 Progarmming Model이다. Hadoop내 분산처리 엔진 역할을 하는 중요한 Component이다. MapReduce는 2004년 Google에서 발표한 논문에서 시작되었다. Hadoop MapReduce는 이 논문을 바탕으로 구현한 Framework이다. 데이터 분산 처리에 적합하며 key-value 알고리즘이 핵심이다. 장단점 장점 단순하고 사용 편리 유연성 -> 특정 데이터 모델이나 스키마, 질의에 의존적이지 않음 저장 구조의 독립성 데이터 복제에 기반한 내구성과 재수행을 통한 내고장성 확보 높은 확장성 단점 고정된 단일 데이터 흐름 기존 DBMS보다 불편한 스키마 질의 단순한 스케줄링 작은 데이터 ..