Курс Data Engineering
- Online
- Для початківців
- Data Engineer / Big Data
![]() |
|
Навчальний центр: | Robot Dreams |
---|---|
Формат: | Курс |
Мова викладання: | Ukrainian |
Тривалість навчання: | 19 занять |
Початок курсу: | 29.10.2025 |
Вартість навчання: | Уточнюйте |
Подробиці та реєстрація
Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
Програма курсу
Intro до курсу Data Engineering
- Дізнаєтеся про історію інженерії даних та Big Data
- З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
- Розглянете технології, з якими працюватимете на курсі
- Зрозумієте, які завдання розв'язує конкретна Big Data технологія
Python для Data Engineering
- Навчитеся правильно будувати сервіс на Python для обробки даних
- Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
- Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних
SQL для Data Engineering
- Зрозумієте, для чого використовують SQL у Big Data
- Розглянете базові операції SQL для обробки великих даних
- Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів
Аналітичні бази даних
- Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
- Зрозумієте технічну реалізацію СУБД, призначених для аналітики
- З'ясуєте, як правильно писати SQL-запит до аналітичної БД
Проєктування сховищ даних
- Дізнаєтеся, що таке шари даних
- З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
- Вивчите підходи до створення сховищ даних
- Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
- Розберете, як влаштовані сховища даних
- Навчитеся представляти дані у вигляді вітрин
- Розглянете принципи побудови аналітичного шару DWH:
- куби даних і багатовимірна модель
- схема "зірка"
- схема "сніжинка"
- підходи до проєктування Кімбала та Інмана
- Зможете проєктувати аналітичний шар DWH
Передача даних між системами: ETL- та ELT-процеси
- Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
- Дізнаєтеся, як реалізовувати ETL-рішення
- Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
- Навчитеся передавати дані між системами
- З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати
Оркестрація процесів обробки даних в Apach Airflow
- Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
- Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
- Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
- Набудете навичок писати свої оператори
- Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow
Розподілені обчислення
- Ознайомитеся з поняттям розподілених систем і обчислень
- Розглянете приклади сучасних розподілених систем
- Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
- Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
- З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання
Екосистема Hadoop для розподіленої роботи
- Дізнаєтеся, що таке Hadoop і де його застосовують
- Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
- Зрозумієте призначення кожної технології у межах екосистеми Hadoop
- Навчитеся користуватися Hadoop Distributed File System
Розподілені системи для зберігання даних: HDFS, S3 та GCS
- Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
- Навчитеся працювати з розподіленою файловою системою Hadoop
- Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
- Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних
BigData-архітектури
- Розберетеся в різних поколіннях архітектур
- Зрозумієте, які проблеми розв'язує кожне покоління архітектури
- Розглянете технології для кожної архітектури
Розподілені обчислення за допомогою Apache Spark
- Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
- З'ясуєте, як Apache Spark використовують для організації великих даних
Docker
- Дізнаєтеся, що таке контейнери та навіщо вони потрібні
- Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
- Навчитеся обгортати власний дистрибутив у Docker
Робота зі структурованими даними: SparkSQL та PySpark. Part 1
- Розглянете SparkSQL як API Apache Spark
- Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL
Робота зі структурованими даними: SparkSQL та PySpark. Part 2
- Дізнаєтеся, як вивантажувати дані зі Spark
- Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark
Оптимізація виконання завдань в Apache Spark
- Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
- Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
- Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
- Зможете писати ефективний код у PySpark
- Набудете навичок організовувати дані в кластері Apache Spark
Робота з потоковою обробкою даних в Apache Spark
- Дізнаєтеся, як працювати з даними, які надходять безперервно
- Розглянете Spark Streaming як інструмент для роботи з потоками даних
- Зрозумієте, чим відрізняється обробка потокових даних від статичних
- Навчитеся обробляти потоки даних за допомогою Spark Streaming
Інструменти AWS для інженерії даних. Part 1
- Розберете Redshift як аналітичну DWH для надвеликих даних
- Розглянете професійні інструменти аналітики та візуалізації:
- S3
- ECS
- EKS
- AWS Lambda
- Ознайомитеся з інструментами AWS для інженерії даних
- Навчитеся працювати з S3 та контейнерними середовищами виконання
Інструменти AWS для інженерії даних. Part 2
- Розглянете такі інструменти, як-от:
- Amazon MWAA
- Kinesis
- AWS EMR
- AWS Glue
- AWS Glue Data Catalog
- AWS Athena
- Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
- Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації
Особливості курсу
- Теорія + практика
- Інструменти
- Проєкт в портфоліо
- Кар'єра
- Допомога ментора
- Сертифікат про проходження курсу
Викладачі курсу
Ілля Хороших - Data Platform Engineer at Lyft
Категорії курсу
Читайте нас в Telegram, щоб не пропустити анонси нових курсів.
Схожі курси
Навчальний центр
CyberBionic Systematics
Формат
Online
Початок навчання
Дата формується
Тривалість
20 годин
Рівень
Для початківців, Для досвідчених
Мова навчання
Ukrainian
Вартість
5 127 UAH за курс
Навчальний центр
Networking Technologies
Формат
Online
Початок навчання
26.05.2026
Тривалість
4 днів
Рівень
Для досвідчених
Мова навчання
Ukrainian
Вартість
уточнюйте
Навчальний центр
EPAM
Формат
Online
Початок навчання
Будь-який момент
Тривалість
3 місяців
Рівень
Для початківців
Мова навчання
English
Вартість
безкоштовно
Навчальний центр
EPAM
Формат
Online
Початок навчання
16.12.2024
Тривалість
14 тижнів
Рівень
Для початківців
Мова навчання
Ukrainian, English
Вартість
безкоштовно