Курс Data Engineering

Online
Для начинающих
Data Engineer / Big Data


Образовательный центр:	Robot Dreams
Формат:	Курс
Язык обучения:	Ukrainian
Длительность обучения:	19 занятий
Начало курса:	29.10.2025
Стоимость обучения:	Уточняйте

Подробности и регистрация

Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.

Програма курсу

Intro до курсу Data Engineering

Дізнаєтеся про історію інженерії даних та Big Data
З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
Розглянете технології, з якими працюватимете на курсі
Зрозумієте, які завдання розв'язує конкретна Big Data технологія

Python для Data Engineering

Навчитеся правильно будувати сервіс на Python для обробки даних
Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних

SQL для Data Engineering

Зрозумієте, для чого використовують SQL у Big Data
Розглянете базові операції SQL для обробки великих даних
Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів

Аналітичні бази даних

Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
Зрозумієте технічну реалізацію СУБД, призначених для аналітики
З'ясуєте, як правильно писати SQL-запит до аналітичної БД

Проєктування сховищ даних

Дізнаєтеся, що таке шари даних
З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
Вивчите підходи до створення сховищ даних
Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
Розберете, як влаштовані сховища даних
Навчитеся представляти дані у вигляді вітрин
Розглянете принципи побудови аналітичного шару DWH:
- куби даних і багатовимірна модель
- схема "зірка"
- схема "сніжинка"
- підходи до проєктування Кімбала та Інмана
Зможете проєктувати аналітичний шар DWH

Передача даних між системами: ETL- та ELT-процеси

Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
Дізнаєтеся, як реалізовувати ETL-рішення
Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
Навчитеся передавати дані між системами
З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати

Оркестрація процесів обробки даних в Apach Airflow

Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
Набудете навичок писати свої оператори
Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow

Розподілені обчислення

Ознайомитеся з поняттям розподілених систем і обчислень
Розглянете приклади сучасних розподілених систем
Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання

Екосистема Hadoop для розподіленої роботи

Дізнаєтеся, що таке Hadoop і де його застосовують
Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
Зрозумієте призначення кожної технології у межах екосистеми Hadoop
Навчитеся користуватися Hadoop Distributed File System

Розподілені системи для зберігання даних: HDFS, S3 та GCS

Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
Навчитеся працювати з розподіленою файловою системою Hadoop
Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних

BigData-архітектури

Розберетеся в різних поколіннях архітектур
Зрозумієте, які проблеми розв'язує кожне покоління архітектури
Розглянете технології для кожної архітектури

Розподілені обчислення за допомогою Apache Spark

Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
З'ясуєте, як Apache Spark використовують для організації великих даних

Docker

Дізнаєтеся, що таке контейнери та навіщо вони потрібні
Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
Навчитеся обгортати власний дистрибутив у Docker

Робота зі структурованими даними: SparkSQL та PySpark. Part 1

Розглянете SparkSQL як API Apache Spark
Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL

Робота зі структурованими даними: SparkSQL та PySpark. Part 2

Дізнаєтеся, як вивантажувати дані зі Spark
Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark

Оптимізація виконання завдань в Apache Spark

Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
Зможете писати ефективний код у PySpark
Набудете навичок організовувати дані в кластері Apache Spark

Робота з потоковою обробкою даних в Apache Spark

Дізнаєтеся, як працювати з даними, які надходять безперервно
Розглянете Spark Streaming як інструмент для роботи з потоками даних
Зрозумієте, чим відрізняється обробка потокових даних від статичних
Навчитеся обробляти потоки даних за допомогою Spark Streaming

Інструменти AWS для інженерії даних. Part 1

Розберете Redshift як аналітичну DWH для надвеликих даних
Розглянете професійні інструменти аналітики та візуалізації:
- S3
- ECS
- EKS
- AWS Lambda
Ознайомитеся з інструментами AWS для інженерії даних
Навчитеся працювати з S3 та контейнерними середовищами виконання

Інструменти AWS для інженерії даних. Part 2

Розглянете такі інструменти, як-от:
- Amazon MWAA
- Kinesis
- AWS EMR
- AWS Glue
- AWS Glue Data Catalog
- AWS Athena
Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації

Особливості курсу

Теорія + практика
Інструменти
Проєкт в портфоліо
Кар'єра
Допомога ментора
Сертифікат про проходження курсу

Викладачі курсу

Ілля Хороших - Data Platform Engineer at Lyft

Категории курса

Курсы Data Engineer / Big Data

Читайте нас в Telegram, чтобы не пропустить анонсы новых курсов.