Курс Data Engineering
- Online
- Для начинающих
- Data Engineer / Big Data
![]() |
|
Образовательный центр: | Robot Dreams |
---|---|
Формат: | Курс |
Язык обучения: | Ukrainian |
Длительность обучения: | 19 занятий |
Начало курса: | 29.10.2025 |
Стоимость обучения: | Уточняйте |
Подробности и регистрация
Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
Програма курсу
Intro до курсу Data Engineering
- Дізнаєтеся про історію інженерії даних та Big Data
- З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
- Розглянете технології, з якими працюватимете на курсі
- Зрозумієте, які завдання розв'язує конкретна Big Data технологія
Python для Data Engineering
- Навчитеся правильно будувати сервіс на Python для обробки даних
- Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
- Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних
SQL для Data Engineering
- Зрозумієте, для чого використовують SQL у Big Data
- Розглянете базові операції SQL для обробки великих даних
- Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів
Аналітичні бази даних
- Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
- Зрозумієте технічну реалізацію СУБД, призначених для аналітики
- З'ясуєте, як правильно писати SQL-запит до аналітичної БД
Проєктування сховищ даних
- Дізнаєтеся, що таке шари даних
- З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
- Вивчите підходи до створення сховищ даних
- Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
- Розберете, як влаштовані сховища даних
- Навчитеся представляти дані у вигляді вітрин
- Розглянете принципи побудови аналітичного шару DWH:
- куби даних і багатовимірна модель
- схема "зірка"
- схема "сніжинка"
- підходи до проєктування Кімбала та Інмана
- Зможете проєктувати аналітичний шар DWH
Передача даних між системами: ETL- та ELT-процеси
- Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
- Дізнаєтеся, як реалізовувати ETL-рішення
- Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
- Навчитеся передавати дані між системами
- З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати
Оркестрація процесів обробки даних в Apach Airflow
- Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
- Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
- Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
- Набудете навичок писати свої оператори
- Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow
Розподілені обчислення
- Ознайомитеся з поняттям розподілених систем і обчислень
- Розглянете приклади сучасних розподілених систем
- Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
- Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
- З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання
Екосистема Hadoop для розподіленої роботи
- Дізнаєтеся, що таке Hadoop і де його застосовують
- Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
- Зрозумієте призначення кожної технології у межах екосистеми Hadoop
- Навчитеся користуватися Hadoop Distributed File System
Розподілені системи для зберігання даних: HDFS, S3 та GCS
- Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
- Навчитеся працювати з розподіленою файловою системою Hadoop
- Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
- Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних
BigData-архітектури
- Розберетеся в різних поколіннях архітектур
- Зрозумієте, які проблеми розв'язує кожне покоління архітектури
- Розглянете технології для кожної архітектури
Розподілені обчислення за допомогою Apache Spark
- Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
- З'ясуєте, як Apache Spark використовують для організації великих даних
Docker
- Дізнаєтеся, що таке контейнери та навіщо вони потрібні
- Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
- Навчитеся обгортати власний дистрибутив у Docker
Робота зі структурованими даними: SparkSQL та PySpark. Part 1
- Розглянете SparkSQL як API Apache Spark
- Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL
Робота зі структурованими даними: SparkSQL та PySpark. Part 2
- Дізнаєтеся, як вивантажувати дані зі Spark
- Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark
Оптимізація виконання завдань в Apache Spark
- Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
- Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
- Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
- Зможете писати ефективний код у PySpark
- Набудете навичок організовувати дані в кластері Apache Spark
Робота з потоковою обробкою даних в Apache Spark
- Дізнаєтеся, як працювати з даними, які надходять безперервно
- Розглянете Spark Streaming як інструмент для роботи з потоками даних
- Зрозумієте, чим відрізняється обробка потокових даних від статичних
- Навчитеся обробляти потоки даних за допомогою Spark Streaming
Інструменти AWS для інженерії даних. Part 1
- Розберете Redshift як аналітичну DWH для надвеликих даних
- Розглянете професійні інструменти аналітики та візуалізації:
- S3
- ECS
- EKS
- AWS Lambda
- Ознайомитеся з інструментами AWS для інженерії даних
- Навчитеся працювати з S3 та контейнерними середовищами виконання
Інструменти AWS для інженерії даних. Part 2
- Розглянете такі інструменти, як-от:
- Amazon MWAA
- Kinesis
- AWS EMR
- AWS Glue
- AWS Glue Data Catalog
- AWS Athena
- Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
- Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації
Особливості курсу
- Теорія + практика
- Інструменти
- Проєкт в портфоліо
- Кар'єра
- Допомога ментора
- Сертифікат про проходження курсу
Викладачі курсу
Ілля Хороших - Data Platform Engineer at Lyft
Категории курса
Читайте нас в Telegram, чтобы не пропустить анонсы новых курсов.
Похожие курсы
Учебный центр
Networking Technologies
Формат
Online
Начало обучения
26.05.2026
Длительность
4 дней
Уровень
Для опытных
Язык обучения
Ukrainian
Стоимость
уточняйте
Учебный центр
Sigma Software University
Формат
Online
Начало обучения
03.06.2025
Длительность
16 занятий
Уровень
Для опытных
Язык обучения
Ukrainian
Стоимость
19 760 UAH за курс
Учебный центр
CyberBionic Systematics
Формат
Online
Начало обучения
Дата формується
Длительность
20 часов
Уровень
Для начинающих, Для опытных
Язык обучения
Ukrainian
Стоимость
5 127 UAH за курс
Учебный центр
EPAM
Формат
Online
Начало обучения
16.12.2024
Длительность
14 недель
Уровень
Для начинающих
Язык обучения
Ukrainian, English
Стоимость
безкоштовно