공부하고 기록하는, 경제학과 출신 개발자의 노트

airflow 3

Airflow Summit 2021 - Deep Dive into the airflow scheduler

사족: 발표자 진짜 개패고싶음. 지금까지 봤던 모든 발표 중 단연 최악.중언부언에 용어 거꾸로 설명하다가 뒤늦게 바로잡는다던가, 뇌정지 온 것처럼 몇 초 가만히 있다가 대충 수습하고 넘어가는 게 한두번이 아님.발표만 깔끔하게 잘했어도 훨씬 좋은 세션이 되었을 거다.  https://youtu.be/DYC4-xElccE?si=lW5prwBguU_MqwQy   Ash Berlin-TaylorPMC member on AirflowDirector of Airflow EngineeringScheduler의 HA를 위해 re-architecting 했던 것들 정리.Responsibility of the Scheduler 단순히 Run Task만 수행하는 게 아님.Check DependenciesRetry Manag..

Airflow Summit 2021 - the Newcomer's guide to airflow's architecture

https://youtu.be/oLTMN-4Rvj8?si=ShQgVv-1M3ZlPbDG  Airflow는 AirBnb 내부에서 사용할 목적으로 만든 internal ETL tool에서 시작함.처음부터 훌륭한 아키텍처로 구성된 건 아니었고, 사용자가 많아지면서 요구사항에 대응하는 식으로 개선되어간 Organic Product. Airflow에서는 사용자가 DAG을 작성한다.DAG: 해야 할 Task와, task 간 relationship을 정의하는 Template.operators / task를 python으로 작성DAG을 실제로 실행할 때는 용어가 조금 달라진다.DagRun: instance of DAG that runs a certain execution time. 즉 특정 파라미터와 데이터를 받아서,..

KubeCon2024 - Comparing Argo Workflows and Airflow in a distributed environment

https://youtu.be/IirxP-a14HU?si=29vjK7bjE2_ZnSzO  ML 파이프라인 구축이 필요하거나Data, Batch Processing이 필요하거나Infrastructure Automation이 필요하거나Workflow Management tool은 있으나 K8s-native Soluction을 들어보고 싶거나 Workflows 작업을 DAG 형태로 정의할 수 있음. Graph의 node는 task (작업) 을 의미한다.k8s Native, container-based, yaml-basedPython SDK 제공Dynamic Workflows Argo cli 또는 web ui로 workflow 정의하고 실행할 수 있다.api client 또는 argo event로 trigger..