일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- kubernetes
- EC2
- Operating System
- tcp
- Network
- Trino
- MAC address
- Kafka
- CVAT
- kubeadm
- java
- docker
- JavaScript
- ip
- jvm
- Vision
- OS
- log
- Packet
- Python
- grafana
- helm
- aws s3
- kubectl
- zookeeper
- PostgreSQL
- Spring
- airflow
- CSV
- AWS
- Today
- Total
목록ALL (210)
JUST WRITE

YARN Yet Another Resource Negotiator Hadoop 1.0과 Hadoop 2.0에서 가장 큰 차이점은 YARN이다. MapReduce는 4000 Node 이상의 매우 큰 Cluster에서 병목현상 이슈가 있었다. 이 병목 이슈를 해결하기 위해 YARN이 도입되었다. Cluster Resouce Management와 Data Processing을 분리하였다. YARN에서 Cluster Resouce Management를 담당한다. MapReduce 외에 다른 Data Processing 방식도 수용 가능하다. 동작 Resource Manager Client가 요청한 Application마다 자원을 관리한다. Hadoop Cluster 내 1개 존재한다. 전체 Resouce 상태를..

MapReduce MapReduce는 Hadoop HDFS 내 Data를 사용하여 처리하는 Progarmming Model이다. Hadoop내 분산처리 엔진 역할을 하는 중요한 Component이다. MapReduce는 2004년 Google에서 발표한 논문에서 시작되었다. Hadoop MapReduce는 이 논문을 바탕으로 구현한 Framework이다. 데이터 분산 처리에 적합하며 key-value 알고리즘이 핵심이다. 장단점 장점 단순하고 사용 편리 유연성 -> 특정 데이터 모델이나 스키마, 질의에 의존적이지 않음 저장 구조의 독립성 데이터 복제에 기반한 내구성과 재수행을 통한 내고장성 확보 높은 확장성 단점 고정된 단일 데이터 흐름 기존 DBMS보다 불편한 스키마 질의 단순한 스케줄링 작은 데이터 ..

HDFS Hadoop Distributed File System 일반적인 Hardware들로 구성된 Cluster에서 대용량 파일을 처리하게 도와주는 시스템이다. BigData 시대에 Data의 크기는 워낙 방대하다. 그러다 보니 하나의 좋은 성능의 Server로는 저장과 처리가 힘들고 비용도 크다. 대신 보통 성능의 Server를 여러 대를 두고 저장, 처리를 하면 훨씬 효율적이다. HDFS는 큰 Data를 분산해서 처리하기 좋은 시스템이다. HDFS는 GFS(Google File System) Architecture 에서 시작되었다. 위 그림에서 보면 Master-Slave 구조를 갖는다. GFS master가 Master, GFS chunkserver가 Slave라고 보면 된다. GFS chunks..

How Airflow works Airflow가 어떻게 동작하는지 알아보려 한다. Single Node, Multi Nodes에서 각각 어떻게 동작하는지 알아보려 한다. Single Node Architecture Single Node Architecture에서는 모든 Airflow Componet가 단일 Machine에서 동작한다. (WebServer, Metastore, Scheduler, Executor) WebServer는 Metastore에서 Data를 가져와 Web Application에서 보여준다. Scheduler는 Metastore와 통신하고 실행한 Task가 있을 시 Executor에게 요청한다. Executor는 Metstore에서 Data를 확인하고 실행할 Task를 실행한다. Ex..

What is Airflow Airflow is a platform to programmatically author, schedule and monitor workflow 위 문장이 Apache Airflow 공식 사이트에 게시되어 있는 Airflow 한 줄 소개글이다. Airflow는 Workflow를 프로그래밍적으로 작성할 수 있고, Schedule 하고 모니터링을 하게 해주는 Platform이다. 다르게 해석하면 작업들을 일정한 시간에 정확한 방법으로 올바른 순서대로 실행하게 해주는 Tool이다. 장점 Dynamic Airflow에서 Pipeline은 Python으로 정의할 수 있다. Python으로 가능한 것이면 Airflow에서 Pipeline내 Task로 실행할 수 있다. Scalable Ai..

venv venv는 특정 Path에 Virtual Environment를 제공해주는 Python Package이다. Virtual Environment덕분에 경량화되고 고립된 환경에서 Python을 이용할 수 있다. Project마다 사용하는 Package와 그 Version이 다르다. System에 설치돼 사용하는 Python Package와 Project 내 Package가 Version이 다를 수 있다. 이러한 문제를 해결하기 위해 venv Package가 Virtual Environment를 제공한다. venv로 특정 Path에 환경을 구성하면 고립되어 System Python Package에 영향을 받지 않는다. 필요한 Package만 설치하면 되고 필요한 Packge Version으로 설치하면..