일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- AWS
- grafana
- helm
- tcp
- CVAT
- kubeadm
- Kafka
- EC2
- kubectl
- Network
- Vision
- JavaScript
- Spring
- Python
- airflow
- log
- zookeeper
- CSV
- jvm
- MAC address
- aws s3
- Operating System
- ip
- Trino
- OS
- docker
- kubernetes
- Packet
- java
- PostgreSQL
- Today
- Total
목록MLOps/Airflow (5)
JUST WRITE
뭐야?! No Space left on device?! Airflow를 Kubernetes Cluster에 Helm으로 구성하여 운영하고 있습니다. Airflow Backend Database로는 PostgreSQL을 사용하고 있습니다. Product 단계에서는 외부에 구축된 PostgreSQL을 연결해 사용해야 합니다. 하지만 내부 사정으로 Helm에 포함된 PostgreSQL을 사용하고 있습니다. Airflow Helm Chart.lock 파일을 보면 Bitnami에서 제공하는 PostgreSQL을 사용합니다. dependencies: - name: postgresql repository: https://charts.bitnami.com/bitnami version: 12.10.0 digest: sh..
Airflow Variables 세팅 Airflow를 사용하다 보면 한 DAG에서만 쓰는 변수가 아닌 코드값처럼 global 하게 쓰는 변수가 있을 수 있습니다. DAG내에서만 쓰면 XComs를 활용할 수 있습니다. global 하게 쓰는 전역 변수는 Variables로 설정할 수 있습니다. 이번 포스팅에서는 Airflow Variables에 대해서 소개해보려고 합니다. Variables 설정 Variables를 가장 간단하게 설정할 수 있는 방법은 Airflow WebServer에서 설정할 수 있습니다. [참고사이트] 더보기 Managing Variables — Airflow Documentation airflow.apache.org
Kubernetes환경에서 Airflow를?!?! 요즘 가장 핫한 Workflow Tool은 Airflow입니다. python으로 개발되어서 설치도 PyPl로 간편하게 설치할 수 있습니다. 하지만 디테일하게 사용하려면 Metastore, Celery Worker 등 설정할게 많습니다. 이러던 중 Kubernetes에 Airflow를 설치해야 될 업무를 맡게 되었습니다. 이번 포스팅에서는 Airflow를 Kubernetes 환경에 설치하는 것을 정리해 보았습니다. Helm으로 Airflow 설치 Airflow에서 공식 Helm을 제공해 주기 때문에 해당 Helm으로 설치를 진행하였습니다. 다른 버전인 User-community Helm도 존재하니 참고해 주시길 바랍니다. Airflow Helm Chart를..
How Airflow works Airflow가 어떻게 동작하는지 알아보려 한다. Single Node, Multi Nodes에서 각각 어떻게 동작하는지 알아보려 한다. Single Node Architecture Single Node Architecture에서는 모든 Airflow Componet가 단일 Machine에서 동작한다. (WebServer, Metastore, Scheduler, Executor) WebServer는 Metastore에서 Data를 가져와 Web Application에서 보여준다. Scheduler는 Metastore와 통신하고 실행한 Task가 있을 시 Executor에게 요청한다. Executor는 Metstore에서 Data를 확인하고 실행할 Task를 실행한다. Ex..
What is Airflow Airflow is a platform to programmatically author, schedule and monitor workflow 위 문장이 Apache Airflow 공식 사이트에 게시되어 있는 Airflow 한 줄 소개글이다. Airflow는 Workflow를 프로그래밍적으로 작성할 수 있고, Schedule 하고 모니터링을 하게 해주는 Platform이다. 다르게 해석하면 작업들을 일정한 시간에 정확한 방법으로 올바른 순서대로 실행하게 해주는 Tool이다. 장점 Dynamic Airflow에서 Pipeline은 Python으로 정의할 수 있다. Python으로 가능한 것이면 Airflow에서 Pipeline내 Task로 실행할 수 있다. Scalable Ai..