Курс Основи обробки та аналітики Big Data

  • Online
  • Для начинающих
  • Data Analyst / Business Intelligence (BI)
Образовательный центр: Robot Dreams
Формат:Курс
Язык обучения:Ukrainian
Длительность обучения:24 занятий
Начало курса:30.06.2025
Стоимость обучения:Уточняйте

Програма курсу

Основи аналітики великих даних

  • Зрозумієте відмінність між сховищами даних, data lakes і lakehouse-архітектурою
  • Дізнаєтеся про переваги та недоліки кожного підходу залежно від бізнес-сценарію
  • Вивчите патерни обробки даних - пакетну й потокову - та їхній вплив на архітектуру пайплайна

Основи Apache Spark

  • Зрозумієте розподілену модель виконання в Spark
  • Навчитеся виконувати базові трансформації та дії з DataFrame
  • Дізнаєтеся, коли краще використовувати DataFrame API, а коли - Spark SQL

Поглиблене вивчення Spark

  • Дізнаєтеся, як виявляти й усувати проблеми з продуктивністю в Spark
  • Навчитеся використовувати партиціювання, кешування й broadcast joins для оптимізації
  • Зрозумієте, як читати Spark UI для покращення виконання завдань і розв'язання проблем зі skew

Spark на EMR

  • Дізнаєтеся, з чого складається AWS EMR та як працюють його компоненти (Hadoop, Spark, Hive тощо)
  • Навчитеся налаштовувати EMR-кластери для зручної та масштабованої роботи зі Spark

Основи Databricks

  • Навчитеся налаштовувати робоче середовище Databricks в AWS
  • Зрозумієте життєвий цикл кластерів і як оптимізувати витрати
  • Дізнаєтеся, як підключати Databricks до хмарних сховищ, зокрема ADLS

Databricks SQL для аналітики

  • Навчитеся писати й виконувати SQL-запити в Databricks
  • Дізнаєтеся, як використовувати Databricks SQL для BI-аналітики
  • Зрозумієте, як оптимізувати запити й працювати з продуктивністю

Реалізація Data Governance на прикладі Unity catalog

  • Дізнаєтеся, як Unity Catalog централізує управління даними в Databricks
  • Навчитеся налаштовувати каталоги, схеми та доступи для безпеки даних
  • Зрозумієте можливості аудиту й відстеження походження даних (data lineage)

Best-практики роботи з Databricks

  • Дізнаєтеся, як оцінювати й оптимізувати витрати на Databricks
  • Навчитеся покращувати продуктивність ноутбуків і дотримуватися best practices
  • Вмітимете швидко знаходити й усувати проблеми з конфігурацією чи продуктивністю

Основи моделювання даних (Data Modeling)

  • Зрозумієте відмінність між Star- та Snowflake-схемами
  • Навчитеся обирати відповідний підхід для моделювання
  • Вмітимете розробляти базові аналітичні схеми "зірка" та "сніжинка"

Знайомство зі Snowflake

  • Дізнаєтесь основні принципи роботи Snowflake як хмарного DWH
  • Навчитеся налаштовувати середовище, створювати таблиці та працювати з Warehouse
  • Зможете завантажувати дані у Snowflake та виконувати SQL-запити
  • Зрозумієте ключові переваги Snowflake у порівнянні з іншими сховищами

Поглиблене вивчення Snowflake

  • Дізнаєтесь, як автоматизувати процеси в Snowflake за допомогою Tasks і Streams
  • Навчитеся реалізовувати сценарії ELT/ETL безпосередньо у Snowflake
  • Ознайомитеся зі способами шерингу даних і налаштуванням доступів
  • Зрозумієте, як використовувати Time Travel та Zero-Copy Cloning у проєктах

Основи моделювання даних за допомогою DBT

  • Навчитеся організовувати dbt-проєкт за рекомендованою структурою
  • Розберетесь із синтаксисом Jinja та створенням модульних SQL-шаблонів
  • Зможете створювати аналітичні моделі у форматі схем зірки або сніжинки за допомогою dbt

Розширені можливості DBT та якість даних

  • Навчитеся створювати тести й макроси для перевірки якості та цілісності даних
  • Зможете автоматизувати документацію та оповіщення для прозорості процесів
  • Розберетесь із розширеним синтаксисом Jinja для скорочення повторюваного коду

Основи Kafka на прикладі AWS MSK

  • Навчитеся описувати ключові концепції Kafka - topics, partitions, offsets
  • Зрозумієте, як Kafka забезпечує обробку даних у реальному часі
  • Зможете інтегрувати Kafka з іншими системами для подієво-орієнтованих архітектур

Spark Structured Streaming

  • Дізнаєтесь, як реалізувати інкрементну обробку даних у Spark Structured Streaming
  • Навчитеся працювати з невпорядкованими подіями за допомогою watermarking і windowing
  • Зможете розгорнути стримінговий конвеєр від Kafka до Delta Lake

Потокова обробка в AWS за допомогою Kafka та Spark

  • Зрозумієте переваги Kafka та Spark для real-time і stateful-обробки даних
  • Навчитеся створювати та налаштовувати потоки в AWS через Amazon Kinesis Data Analytics
  • Зможете реалізувати трансформації потоків: вікна, стани й checkpointing

Основи NoSQL

  • Дізнаєтеся про моделі NoSQL: key-value, документну та колонкову
  • Навчитеся проєктувати ключі партицій для масштабованості
  • Зрозумієте суть CAP-теореми та компроміси між узгодженістю й доступністю

Serverless-обробка за допомогою AWS Athena

  • Навчитеся здійснювати SQL-запити до даних у дата-озерах
  • Дізнаєтесь, як Athena масштабується та як оцінити її вартість
  • Зрозумієте, як партиціювання й зовнішні схеми пришвидшують аналітику

Основи Airflow та інтеграція з CI/CD

  • Навчитеся створювати DAG в Airflow для автоматизації ETL
  • Зрозумієте, як керувати розгортанням через Git та CI/CD
  • Дізнаєтесь, як працювати з розкладами, бекфілами та покращувати надійність

Інтеграція Airflow із Databricks та DBT

  • Навчитеся керувати завданнями Databricks через Airflow
  • Зможете запускати dbt-команди й налаштовувати змінні середовища
  • Дізнаєтесь, як централізувати розклади, логування та обробку помилок

Основи Power BI

  • Навчитеся підключатися до джерел, трансформувати й візуалізувати дані в Power BI
  • Дізнаєтесь, у чому відмінності між DirectQuery, Import та Live Connection

Інтеграція Power BI з Databricks

  • Дізнаєтесь, як підключити Power BI до Databricks Lakehouse для аналітики в реальному часі
  • Навчитеся налаштовувати розклади оновлення та працювати з потоковими наборами даних
  • Опануєте захист доступу до даних через AWS IAM

Q&A-сесія

Розберете всі неточності й отримаєте відповіді на запитання, що виникли під час проходження курсу Big Data.

Захист курсового проєкту

Реалізуєте та презентуєте data pipeline на базі Lambda-архітектури з використанням Databricks, dbt, Kafka, Snowflake і Power BI.

Особливості курсу

  • Допомога ментора
  • Практика
  • Курсовий проєкт
  • Проєкт в портфоліо
  • Сертифікат про проходження курсу

Викладачі курсу

Денис Кулемза - Senior Data Engineer at Intellias

Читайте нас в Telegram, чтобы не пропустить анонсы новых курсов.

Похожие курсы

Учебный центр
Мир Современного Образования
Формат
Online
Начало обучения
Дата формується
Длительность
16 часов
Уровень
Для начинающих
Язык обучения
Ukrainian
Стоимость
8 000 UAH за курс
Учебный центр
Мир Современного Образования
Формат
Online
Начало обучения
03.11.2025
Длительность
30 часов
Уровень
Для начинающих
Язык обучения
Ukrainian
Стоимость
24 000 UAH за курс
Учебный центр
Robot Dreams
Формат
Online
Начало обучения
20.05.2025
Длительность
24 занятий
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
Учебный центр
Hillel IT school
Формат
Online
Начало обучения
30.09.2025
Длительность
32 занятий
Уровень
Для опытных
Язык обучения
Ukrainian
Стоимость
19 800 UAH за курс