일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- airflow
- Kafka
- Network
- Python
- kubectl
- tcp
- PostgreSQL
- aws s3
- EC2
- docker
- MAC address
- CSV
- helm
- Vision
- Spring
- kubernetes
- Operating System
- OS
- ip
- Packet
- jvm
- AWS
- CVAT
- zookeeper
- kubeadm
- JavaScript
- Trino
- grafana
- log
- java
- Today
- Total
목록CSV (7)
JUST WRITE

Trino 한번 써보겠습니다(3) 분산 Query Engine 중 가장 핫한 Trino를 설치해 보았습니다. Kubernetes Cluster에 Hive Metastore를 구성해서 AWS S3에 연결까지 해보았습니다. Trino 한번 써보겠습니다(2) - Hive Metastore와 AWS S3 연결 Trino 한번 써보겠습니다(2) 분산 Query Engine 중 가장 핫한 Trino를 설치해 보았습니다. Trino 한번 써보겠습니다(1) - Kubernetes에 Trino 설치 Trino 한번 써보겠습니다(1) RDB에서 데이터를 조회할 때 SQL를 통 developnote-blog.tistory.com Trino 설치 Hive Metastore와 AWS S3 연결 AWS S3내 CSV 데이터 조회..

AWS Cloud 실습을 위해 진행한 개인 프로젝트를 정리한 글입니다. 서울 따릉이 대여소 Data를 AWS Service와 Grafana를 이용하여 Dashboard까지 구성해보았다. 따릉이 대여소 Data를 정재한 다음 CSV로 만들었다. Parquet 형식으로 하면 성능면에서 개선이 될 수 있을 거 같아 시도해보았다. Parquet 형식으로 Data 정제 따릉이 대여소 정보와 실시간 대여 정보를 Python Code로 정제하여 CSV 파일로 만들었다. Python fastparquet package를 활용하여 CSV가 아닌 Parquet으로 결과물을 만들었다. # (기존) CSV 파일 생성 impart pandas as pd file_name = 'seoul_rentbike_info_{}.csv'...

What is Parquet Parquet은 OpenSource로 Column 기반 Data 저장 포맷입니다. 복잡한 Data를 대량으로 처리할 수 있는 성능과 효율적인 압축, 인코딩을 제공합니다. RCFile, ORC처럼 Hadoop에서 사용할 수 있는 Column 기반 저장 형식과 비슷하다. 특징 OpenSource. 특정 Programing 언어에 제한되지 않음. Column 기반 Data 저장 포맷 OLAP에 사용하기 효과적(전통적인 OLTP Database에 사용 가능) 압축/ 압축해제에 높은 효율 복잡한 Data type 지원 3가지 Metadata 구성 file metadata column(chunk) metadata page header metadata 장점 Table, Image, Vid..

AWS Cloud 실습을 위해 진행한 개인 프로젝트를 정리한 글입니다. AWS S3에 있던 따릉이 대여소 정보가 담긴 CSV Data를 Redshift Table에 적재하였다. Redshift Table의 Data를 토대로 Grafana Dashboard를 구성해보았다. Grafana 설치 서울시 공공데이터에서 따릉이 대여소 정보를 정제하고 AWS S3에 업로드를 Python Process로 진행했다. AWS EC2에서 Python Process를 진행했었는데 같은 EC2에 Grafana를 설치하였다. yum command로 Grafana 설치하였다. 먼저, yum.repos.d 내 grafana repository를 추가하였다. sudo vi /etc/yum.repos.d/grafana.repo # g..

AWS Cloud 실습을 위해 진행한 개인 프로젝트를 정리한 글입니다. 서울 공공데이터에서 따릉이 대여소 정보를 정제하여 CSV 파일로 만들었다. 만든 CSV 파일을 EC2 환경에서 Python Process를 통해 자동으로 AWS S3에 Upload 하였다. AWS S3에 Object(CSV 파일)을 AWS Lambda를 이용해서 AWS Redshift Table에 적재하려 한다. AWS Lambda Function 생성 S3 Bucket에 있는 CSV 파일을 Redshift Table에 적재하기 위해서 AWS Lambda를 이용하였다. S3 Bucket에 새로운 Object가 Upload 할 때 해당 Object를 Redshift Table에 적재하도록 하였다. S3 Object 관련된 블루프린트를 ..

AWS Cloud 실습을 위해 진행한 개인 프로젝트를 정리한 글입니다. AWS Cloud를 공부하기 위해 따릉이 대여서 정보 Dashboard 구성 프로젝트를 진행하였다. 위 그림에서 빨간색 부분인 Data 정제 부분을 먼저 진행하였다. 서울 공공데이터에서 2가지 데이터를 가져와서 통합 및 정제를 진행하였다. 서울특별시 공공자전거 대여소 정보(21년 12월 기준) -> csv 파일 서울특별시 공공자전거 실시간 대여 정보 -> OpenAPI로 제공 실시간 대여 정보에는 아래와 같은 정보가 존재한다. 출력명 출력설명 rackTotCnt 거치대 개수 stationName 대여소 이름 parkingBikeTotCnt 자전거 주차 총 건수 shared 거치율 stationLatitude 위도 stationLong..