bart
PRO
- Сообщения
- 52.242
- Реакции
- 28.428
Apache Airflow: Оркестрация рабочих процессов
Apache Airflow Workflow Orchestration
learndataengineering
Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.
Airflow позволяет не только планировать и управлять процессами, но и отслеживать выполнение заданий в реальном времени, а также быстро находить и устранять ошибки.
Если кратко: сегодня Airflow - один из самых востребованных и «хайповых» инструментов в сфере оркестрации пайплайнов. Он активно используется в компаниях по всему миру, и знание Airflow становится важным навыком для любого data engineer. Особенно это актуально для студентов, начинающих свой путь в этой области.
Базовые концепции Airflow
Введение в основы работы с Airflow: вы узнаете, как создаются DAG’и (направленные ациклические графы), из чего они состоят (операторы, задачи), и как устроена архитектура Airflow - включая базу данных, планировщик и веб-интерфейс. Также рассмотрим примеры событийных пайплайнов, которые можно реализовать с помощью Airflow.
Установка и настройка окружения
На практике вы будете работать с проектом по обработке погодных данных. DAG будет получать данные из погодного API, трансформировать их и сохранять в базу Postgres. Вы научитесь:
Практика: создание DAG’ов
Вы подробно разберётесь с интерфейсом Airflow и научитесь отслеживать статус задач. Затем:
Продажник:
Скачать:
Apache Airflow Workflow Orchestration
learndataengineering
Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.
Airflow позволяет не только планировать и управлять процессами, но и отслеживать выполнение заданий в реальном времени, а также быстро находить и устранять ошибки.
Если кратко: сегодня Airflow - один из самых востребованных и «хайповых» инструментов в сфере оркестрации пайплайнов. Он активно используется в компаниях по всему миру, и знание Airflow становится важным навыком для любого data engineer. Особенно это актуально для студентов, начинающих свой путь в этой области.
Базовые концепции Airflow
Введение в основы работы с Airflow: вы узнаете, как создаются DAG’и (направленные ациклические графы), из чего они состоят (операторы, задачи), и как устроена архитектура Airflow - включая базу данных, планировщик и веб-интерфейс. Также рассмотрим примеры событийных пайплайнов, которые можно реализовать с помощью Airflow.
Установка и настройка окружения
На практике вы будете работать с проектом по обработке погодных данных. DAG будет получать данные из погодного API, трансформировать их и сохранять в базу Postgres. Вы научитесь:
- настраивать окружение с помощью Docker;
- проверять работу веб-интерфейса и контейнеров;
- конфигурировать API и создавать необходимые таблицы в базе данных.
Практика: создание DAG’ов
Вы подробно разберётесь с интерфейсом Airflow и научитесь отслеживать статус задач. Затем:
- создадите DAG’и на базе Airflow 2.0, которые получают и обрабатывают данные;
- освоите Taskflow API - современный подход к построению DAG’ов с более удобным синтаксисом;
- реализуете параллельное выполнение задач (fanout) для запуска нескольких процессов одновременно.
Продажник:
Для просмотра вы должны войти или зарегистрироваться.
Скачать:
Скрытое содержимое могут видеть только пользователь группы: PRO
Качать без ограничений Купить доступ к 1 теме
Качать без ограничений Купить доступ к 1 теме
Скрытое содержимое для пользователей: Ferr