• TopKursy - РЕДКИЕ Удаленные КУРСЫ!

    Эксклюзивные материалы, недоступные на других источниках.

    Откройте доступ к уникальным знаниям прямо сейчас!

    Подробнее

Скоро! Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik]

  • Автор темы EGround
  • Дата начала
Статус
В этой теме нельзя размещать новые ответы.
EGround

EGround

Редактор
Сообщения
62.894
Реакции
275

Складчина: Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik]​


Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

Чему вы научитесь

  • Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
  • Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
  • Делать batch и streaming в Spark, настраивать окна и watermark.
  • Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
  • Настраивать DAG: расписания, retries, SLA, catchup, datasets.
  • Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
  • Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
  • Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).

Продажник:


Материал «Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik]», возможно, скоро появится на EGROUND.
Воспользуйтесь поиском, может быть, он уже опубликован.
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху Снизу