일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- PostgreSQL
- Kafka
- EC2
- docker
- airflow
- Packet
- helm
- log
- kubectl
- Vision
- OS
- Operating System
- CSV
- kubeadm
- zookeeper
- aws s3
- ip
- kubernetes
- Python
- jvm
- Trino
- MAC address
- java
- CVAT
- grafana
- AWS
- JavaScript
- Network
- tcp
- Spring
- Today
- Total
목록Data (12)
JUST WRITE
What is Nifi Open Source로 Data flow를 관리할 수 있는 Tool이다. Nifi는 Niagra Files의 준말로 NSA(National Security Agency)에서 개발하였다. Top-level Apache Project로 Hortonworks에서 지원하고 있다. Bigdata platform에서 분석 시 다양한 Datasource에서 데이터 통합 및 처리가 필요하다. ERP, CRM, 파일, Application, IoT 등 다양한 소스에서 데이터 처리가 필요하다. 다양한 소스에서 나오는 Bigdata를 분산 환경에서 처리할 수 있게 도와주는 강력한 Tool이다. 특징 Web UI에서 Data Flow를 수정할 수 있고 Monitoring 가능 Data 유실없이 Data..
What is MinIO MinIO는 분산 Object Storage이다. Open Source로 Private Cloud에 적합한 S3 성격의 Storage이다. Go 언어로 개발되었으며 Docker Image도 1억건 이상 pull한 유명한 Storage이다. 사진, 비디오, Log 등 비정형화된 데이터 저장에 적합하다. 특징 S3 API 호환 Erasure Coding을 통한 보안성 강화 Kubernetes 환경에서 설치 가능 Horizontal and Vertical scaling MinIO Console이라는 Web UI 제공 High availability(고가용성) MinIO 설치 MinIO Server 설치 Standalone 환경에서 설치를 진행하였다. MinIO User를 먼저 생성합니..
YARN Yet Another Resource Negotiator Hadoop 1.0과 Hadoop 2.0에서 가장 큰 차이점은 YARN이다. MapReduce는 4000 Node 이상의 매우 큰 Cluster에서 병목현상 이슈가 있었다. 이 병목 이슈를 해결하기 위해 YARN이 도입되었다. Cluster Resouce Management와 Data Processing을 분리하였다. YARN에서 Cluster Resouce Management를 담당한다. MapReduce 외에 다른 Data Processing 방식도 수용 가능하다. 동작 Resource Manager Client가 요청한 Application마다 자원을 관리한다. Hadoop Cluster 내 1개 존재한다. 전체 Resouce 상태를..
MapReduce MapReduce는 Hadoop HDFS 내 Data를 사용하여 처리하는 Progarmming Model이다. Hadoop내 분산처리 엔진 역할을 하는 중요한 Component이다. MapReduce는 2004년 Google에서 발표한 논문에서 시작되었다. Hadoop MapReduce는 이 논문을 바탕으로 구현한 Framework이다. 데이터 분산 처리에 적합하며 key-value 알고리즘이 핵심이다. 장단점 장점 단순하고 사용 편리 유연성 -> 특정 데이터 모델이나 스키마, 질의에 의존적이지 않음 저장 구조의 독립성 데이터 복제에 기반한 내구성과 재수행을 통한 내고장성 확보 높은 확장성 단점 고정된 단일 데이터 흐름 기존 DBMS보다 불편한 스키마 질의 단순한 스케줄링 작은 데이터 ..
HDFS Hadoop Distributed File System 일반적인 Hardware들로 구성된 Cluster에서 대용량 파일을 처리하게 도와주는 시스템이다. BigData 시대에 Data의 크기는 워낙 방대하다. 그러다 보니 하나의 좋은 성능의 Server로는 저장과 처리가 힘들고 비용도 크다. 대신 보통 성능의 Server를 여러 대를 두고 저장, 처리를 하면 훨씬 효율적이다. HDFS는 큰 Data를 분산해서 처리하기 좋은 시스템이다. HDFS는 GFS(Google File System) Architecture 에서 시작되었다. 위 그림에서 보면 Master-Slave 구조를 갖는다. GFS master가 Master, GFS chunkserver가 Slave라고 보면 된다. GFS chunks..
What is Grafana Grafana는 OpenSource로 분석 및 시각화 Web Application이다. 수많은 DataSource에서 Data를 수집할 수 있습니다. 쉬운 분석을 위한 Dashboard를 구성하는 최적화된 Tool-kit입니다. Time-series Databas(TSDB)를 시각화는데도 최적화되어 있다. 특징 Visualization Grafana는 Data를 쉽게 이해할 수 있게 다양한 시각화 기능을 제공합니다. Panel은 Grafana에서 가장 기본적인 시각화 Block입니다. Panel은 Mapping 된 Datasource에서 Query 한 Data를 기준으로 보여줍니다. Data를 바탕으로 gauge, histogram, bar chart 등 다양한 Graph로 ..