• TopKursy - РЕДКИЕ Удаленные КУРСЫ!

    Эксклюзивные материалы, недоступные на других источниках.

    Откройте доступ к уникальным знаниям прямо сейчас!

    Подробнее

Скачать Eng Инженерия данных с использованием Databricks - learndataengineering (2025)

bart

bart

PRO
Сообщения
52.242
Реакции
28.422
Инженерия данных с использованием Databricks
Data Engineering on Databricks
learndataengineering

1750589189532.png


Databricks - одна из самых популярных платформ для обработки данных с использованием Apache Spark и создания современных хранилищ данных (Lakehouse). В этом курсе вы изучите всё, что нужно для уверенного старта работы с Databricks: от основ платформы до создания собственных пайплайнов и подключения BI-инструментов.
Вы узнаете, как работает Databricks, зачем его использовать, создадите свои ноутбуки, настроите кластер вычислений и познакомитесь с Databricks SQL Warehouse.
1. Установка и подготовка данных
Прежде чем приступить к практике, вы настроите Databricks на AWS, создадите S3-бакет для хранения данных и рабочее пространство. Также вы разберёте шаблон AWS CloudFormation, который использует Databricks, чтобы понимать, как инфраструктура разворачивается автоматически.
Проведёте обзор созданного кластера и ознакомитесь с датасетом, на основе которого будете строить свой ETL-процесс.
2. Практика: обработка данных
Вы изучите два способа загрузки данных в Databricks: напрямую или через S3 с последующей интеграцией. Также научитесь создавать репозитории кода. Это можно сделать двумя способами: подключить GitHub-репозиторий или создать репозиторий вручную прямо в Databricks.
Во время проекта вы выполните две ключевые задачи:
  • ETL-обработка данных: запустите пайплайн, выполните преобразование, создадите таблицы и сохраните их в Databricks.
  • Визуализация данных: в отдельном нотбуке выполните анализ с помощью Spark SQL и создадите визуализации.
Вы также узнаете, как хранятся данные внутри Databricks.
3. Хранилище данных и внешние интеграции
В завершение вы подключите Power BI к Databricks и попробуете оба способа интеграции: через вычислительный кластер и через SQL Warehouse. Таким образом, вы научитесь интегрировать Databricks с внешними аналитическими инструментами.
Рекомендации перед началом
Перед тем как начать этот курс, рекомендуется пройти курс "Основы Apache Spark". С этими базовыми знаниями вы сможете эффективно работать в Databricks.
Требования:
  • Аккаунт AWS
  • Аккаунт Databricks
  • Знания основ Spark (достаточно уровня курса «Spark Fundamentals»)
  • Затраты на AWS минимальны (особенно в рамках бесплатного уровня)

Материал на английском языке



Продажник:

Скачать:
Скрытое содержимое могут видеть только пользователь группы: PRO

Качать без ограничений Купить доступ к 1 теме
Скрытое содержимое для пользователей: Ferr
 
Сверху Снизу