Курс Data Engineering
- Online
- Для начинающих
- Data Engineer / Big Data
![]() |
|
| Образовательный центр: | Robot Dreams |
|---|---|
| Формат: | Курс |
| Язык обучения: | Ukrainian |
| Длительность обучения: | 19 занятий |
| Начало курса: | 29.10.2025 |
| Стоимость обучения: | Уточняйте |
Подробности и регистрация
Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
Програма курсу
Intro до курсу Data Engineering
- Дізнаєтеся про історію інженерії даних та Big Data
- З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
- Розглянете технології, з якими працюватимете на курсі
- Зрозумієте, які завдання розв'язує конкретна Big Data технологія
Python для Data Engineering
- Навчитеся правильно будувати сервіс на Python для обробки даних
- Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
- Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних
SQL для Data Engineering
- Зрозумієте, для чого використовують SQL у Big Data
- Розглянете базові операції SQL для обробки великих даних
- Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів
Аналітичні бази даних
- Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
- Зрозумієте технічну реалізацію СУБД, призначених для аналітики
- З'ясуєте, як правильно писати SQL-запит до аналітичної БД
Проєктування сховищ даних
- Дізнаєтеся, що таке шари даних
- З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
- Вивчите підходи до створення сховищ даних
- Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
- Розберете, як влаштовані сховища даних
- Навчитеся представляти дані у вигляді вітрин
- Розглянете принципи побудови аналітичного шару DWH:
- куби даних і багатовимірна модель
- схема "зірка"
- схема "сніжинка"
- підходи до проєктування Кімбала та Інмана
- Зможете проєктувати аналітичний шар DWH
Передача даних між системами: ETL- та ELT-процеси
- Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
- Дізнаєтеся, як реалізовувати ETL-рішення
- Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
- Навчитеся передавати дані між системами
- З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати
Оркестрація процесів обробки даних в Apach Airflow
- Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
- Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
- Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
- Набудете навичок писати свої оператори
- Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow
Розподілені обчислення
- Ознайомитеся з поняттям розподілених систем і обчислень
- Розглянете приклади сучасних розподілених систем
- Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
- Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
- З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання
Екосистема Hadoop для розподіленої роботи
- Дізнаєтеся, що таке Hadoop і де його застосовують
- Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
- Зрозумієте призначення кожної технології у межах екосистеми Hadoop
- Навчитеся користуватися Hadoop Distributed File System
Розподілені системи для зберігання даних: HDFS, S3 та GCS
- Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
- Навчитеся працювати з розподіленою файловою системою Hadoop
- Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
- Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних
BigData-архітектури
- Розберетеся в різних поколіннях архітектур
- Зрозумієте, які проблеми розв'язує кожне покоління архітектури
- Розглянете технології для кожної архітектури
Розподілені обчислення за допомогою Apache Spark
- Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
- З'ясуєте, як Apache Spark використовують для організації великих даних
Docker
- Дізнаєтеся, що таке контейнери та навіщо вони потрібні
- Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
- Навчитеся обгортати власний дистрибутив у Docker
Робота зі структурованими даними: SparkSQL та PySpark. Part 1
- Розглянете SparkSQL як API Apache Spark
- Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL
Робота зі структурованими даними: SparkSQL та PySpark. Part 2
- Дізнаєтеся, як вивантажувати дані зі Spark
- Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark
Оптимізація виконання завдань в Apache Spark
- Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
- Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
- Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
- Зможете писати ефективний код у PySpark
- Набудете навичок організовувати дані в кластері Apache Spark
Робота з потоковою обробкою даних в Apache Spark
- Дізнаєтеся, як працювати з даними, які надходять безперервно
- Розглянете Spark Streaming як інструмент для роботи з потоками даних
- Зрозумієте, чим відрізняється обробка потокових даних від статичних
- Навчитеся обробляти потоки даних за допомогою Spark Streaming
Інструменти AWS для інженерії даних. Part 1
- Розберете Redshift як аналітичну DWH для надвеликих даних
- Розглянете професійні інструменти аналітики та візуалізації:
- S3
- ECS
- EKS
- AWS Lambda
- Ознайомитеся з інструментами AWS для інженерії даних
- Навчитеся працювати з S3 та контейнерними середовищами виконання
Інструменти AWS для інженерії даних. Part 2
- Розглянете такі інструменти, як-от:
- Amazon MWAA
- Kinesis
- AWS EMR
- AWS Glue
- AWS Glue Data Catalog
- AWS Athena
- Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
- Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації
Особливості курсу
- Теорія + практика
- Інструменти
- Проєкт в портфоліо
- Кар'єра
- Допомога ментора
- Сертифікат про проходження курсу
Викладачі курсу
Ілля Хороших - Data Platform Engineer at Lyft
Зарегистрироваться на курс
Категории курса
Читайте нас в Telegram, чтобы не пропустить анонсы новых курсов.
Похожие курсы
Учебный центр
CyberBionic Systematics
Формат
Online
Начало обучения
Дата формується
Длительность
15 часов
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
3 992 UAH за курс
Учебный центр
CyberBionic Systematics
Формат
Online
Начало обучения
Дата формується
Длительность
20 часов
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
6 316 UAH за курс
Учебный центр
Networking Technologies
Формат
Online
Начало обучения
26.05.2026
Длительность
4 дней
Уровень
Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
Учебный центр
Networking Technologies
Формат
Online
Начало обучения
Дата формується
Длительность
1 дней
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
