Курс Основи обробки та аналітики Big Data

  • Online
  • Для начинающих
  • Data Analyst / Business Intelligence (BI)
Образовательный центр: Robot Dreams
Формат:Курс
Язык обучения:Ukrainian
Длительность обучения:24 занятий
Начало курса:30.06.2025
Стоимость обучения:Уточняйте

Програма курсу

Основи аналітики великих даних

  • Зрозумієте відмінність між сховищами даних, data lakes і lakehouse-архітектурою
  • Дізнаєтеся про переваги та недоліки кожного підходу залежно від бізнес-сценарію
  • Вивчите патерни обробки даних - пакетну й потокову - та їхній вплив на архітектуру пайплайна

Основи Apache Spark

  • Зрозумієте розподілену модель виконання в Spark
  • Навчитеся виконувати базові трансформації та дії з DataFrame
  • Дізнаєтеся, коли краще використовувати DataFrame API, а коли - Spark SQL

Поглиблене вивчення Spark

  • Дізнаєтеся, як виявляти й усувати проблеми з продуктивністю в Spark
  • Навчитеся використовувати партиціювання, кешування й broadcast joins для оптимізації
  • Зрозумієте, як читати Spark UI для покращення виконання завдань і розв'язання проблем зі skew

Spark на EMR

  • Дізнаєтеся, з чого складається AWS EMR та як працюють його компоненти (Hadoop, Spark, Hive тощо)
  • Навчитеся налаштовувати EMR-кластери для зручної та масштабованої роботи зі Spark

Основи Databricks

  • Навчитеся налаштовувати робоче середовище Databricks в AWS
  • Зрозумієте життєвий цикл кластерів і як оптимізувати витрати
  • Дізнаєтеся, як підключати Databricks до хмарних сховищ, зокрема ADLS

Databricks SQL для аналітики

  • Навчитеся писати й виконувати SQL-запити в Databricks
  • Дізнаєтеся, як використовувати Databricks SQL для BI-аналітики
  • Зрозумієте, як оптимізувати запити й працювати з продуктивністю

Реалізація Data Governance на прикладі Unity catalog

  • Дізнаєтеся, як Unity Catalog централізує управління даними в Databricks
  • Навчитеся налаштовувати каталоги, схеми та доступи для безпеки даних
  • Зрозумієте можливості аудиту й відстеження походження даних (data lineage)

Best-практики роботи з Databricks

  • Дізнаєтеся, як оцінювати й оптимізувати витрати на Databricks
  • Навчитеся покращувати продуктивність ноутбуків і дотримуватися best practices
  • Вмітимете швидко знаходити й усувати проблеми з конфігурацією чи продуктивністю

Основи моделювання даних (Data Modeling)

  • Зрозумієте відмінність між Star- та Snowflake-схемами
  • Навчитеся обирати відповідний підхід для моделювання
  • Вмітимете розробляти базові аналітичні схеми "зірка" та "сніжинка"

Знайомство зі Snowflake

  • Дізнаєтесь основні принципи роботи Snowflake як хмарного DWH
  • Навчитеся налаштовувати середовище, створювати таблиці та працювати з Warehouse
  • Зможете завантажувати дані у Snowflake та виконувати SQL-запити
  • Зрозумієте ключові переваги Snowflake у порівнянні з іншими сховищами

Поглиблене вивчення Snowflake

  • Дізнаєтесь, як автоматизувати процеси в Snowflake за допомогою Tasks і Streams
  • Навчитеся реалізовувати сценарії ELT/ETL безпосередньо у Snowflake
  • Ознайомитеся зі способами шерингу даних і налаштуванням доступів
  • Зрозумієте, як використовувати Time Travel та Zero-Copy Cloning у проєктах

Основи моделювання даних за допомогою DBT

  • Навчитеся організовувати dbt-проєкт за рекомендованою структурою
  • Розберетесь із синтаксисом Jinja та створенням модульних SQL-шаблонів
  • Зможете створювати аналітичні моделі у форматі схем зірки або сніжинки за допомогою dbt

Розширені можливості DBT та якість даних

  • Навчитеся створювати тести й макроси для перевірки якості та цілісності даних
  • Зможете автоматизувати документацію та оповіщення для прозорості процесів
  • Розберетесь із розширеним синтаксисом Jinja для скорочення повторюваного коду

Основи Kafka на прикладі AWS MSK

  • Навчитеся описувати ключові концепції Kafka - topics, partitions, offsets
  • Зрозумієте, як Kafka забезпечує обробку даних у реальному часі
  • Зможете інтегрувати Kafka з іншими системами для подієво-орієнтованих архітектур

Spark Structured Streaming

  • Дізнаєтесь, як реалізувати інкрементну обробку даних у Spark Structured Streaming
  • Навчитеся працювати з невпорядкованими подіями за допомогою watermarking і windowing
  • Зможете розгорнути стримінговий конвеєр від Kafka до Delta Lake

Потокова обробка в AWS за допомогою Kafka та Spark

  • Зрозумієте переваги Kafka та Spark для real-time і stateful-обробки даних
  • Навчитеся створювати та налаштовувати потоки в AWS через Amazon Kinesis Data Analytics
  • Зможете реалізувати трансформації потоків: вікна, стани й checkpointing

Основи NoSQL

  • Дізнаєтеся про моделі NoSQL: key-value, документну та колонкову
  • Навчитеся проєктувати ключі партицій для масштабованості
  • Зрозумієте суть CAP-теореми та компроміси між узгодженістю й доступністю

Serverless-обробка за допомогою AWS Athena

  • Навчитеся здійснювати SQL-запити до даних у дата-озерах
  • Дізнаєтесь, як Athena масштабується та як оцінити її вартість
  • Зрозумієте, як партиціювання й зовнішні схеми пришвидшують аналітику

Основи Airflow та інтеграція з CI/CD

  • Навчитеся створювати DAG в Airflow для автоматизації ETL
  • Зрозумієте, як керувати розгортанням через Git та CI/CD
  • Дізнаєтесь, як працювати з розкладами, бекфілами та покращувати надійність

Інтеграція Airflow із Databricks та DBT

  • Навчитеся керувати завданнями Databricks через Airflow
  • Зможете запускати dbt-команди й налаштовувати змінні середовища
  • Дізнаєтесь, як централізувати розклади, логування та обробку помилок

Основи Power BI

  • Навчитеся підключатися до джерел, трансформувати й візуалізувати дані в Power BI
  • Дізнаєтесь, у чому відмінності між DirectQuery, Import та Live Connection

Інтеграція Power BI з Databricks

  • Дізнаєтесь, як підключити Power BI до Databricks Lakehouse для аналітики в реальному часі
  • Навчитеся налаштовувати розклади оновлення та працювати з потоковими наборами даних
  • Опануєте захист доступу до даних через AWS IAM

Q&A-сесія

Розберете всі неточності й отримаєте відповіді на запитання, що виникли під час проходження курсу Big Data.

Захист курсового проєкту

Реалізуєте та презентуєте data pipeline на базі Lambda-архітектури з використанням Databricks, dbt, Kafka, Snowflake і Power BI.

Особливості курсу

  • Допомога ментора
  • Практика
  • Курсовий проєкт
  • Проєкт в портфоліо
  • Сертифікат про проходження курсу

Викладачі курсу

Денис Кулемза - Senior Data Engineer at Intellias

Читайте нас в Telegram, чтобы не пропустить анонсы новых курсов.

Похожие курсы

Учебный центр
Networking Technologies
Формат
Online
Начало обучения
16.03.2026
Длительность
3 дней
Уровень
Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
Учебный центр
GoIT
Формат
Online
Начало обучения
13.01.2026
Длительность
5 месяцев
Уровень
Для начинающих
Язык обучения
Ukrainian
Стоимость
3 200 UAH за месяц
Учебный центр
Networking Technologies
Формат
Online
Начало обучения
Дата формується
Длительность
8 часов
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
Учебный центр
Genesis Academy
Формат
Offline+Online
Начало обучения
Дата формується
Длительность
3 месяцев
Уровень
Для начинающих
Язык обучения
Ukrainian
Стоимость
безкоштовно