Курс Data Engineering

  • Online
  • Для початківців
  • Data Engineer / Big Data
Навчальний центр: Robot Dreams
Формат:Курс
Мова викладання:Ukrainian
Тривалість навчання:19 занять
Початок курсу:29.10.2025
Вартість навчання:Уточнюйте

Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.

Програма курсу

Intro до курсу Data Engineering

  • Дізнаєтеся про історію інженерії даних та Big Data
  • З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
  • Розглянете технології, з якими працюватимете на курсі
  • Зрозумієте, які завдання розв'язує конкретна Big Data технологія

Python для Data Engineering

  • Навчитеся правильно будувати сервіс на Python для обробки даних
  • Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
  • Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних

SQL для Data Engineering

  • Зрозумієте, для чого використовують SQL у Big Data
  • Розглянете базові операції SQL для обробки великих даних
  • Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів

Аналітичні бази даних

  • Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
  • Зрозумієте технічну реалізацію СУБД, призначених для аналітики
  • З'ясуєте, як правильно писати SQL-запит до аналітичної БД

Проєктування сховищ даних

  • Дізнаєтеся, що таке шари даних
  • З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
  • Вивчите підходи до створення сховищ даних
  • Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
  • Розберете, як влаштовані сховища даних
  • Навчитеся представляти дані у вигляді вітрин
  • Розглянете принципи побудови аналітичного шару DWH:
    • куби даних і багатовимірна модель
    • схема "зірка"
    • схема "сніжинка"
    • підходи до проєктування Кімбала та Інмана
  • Зможете проєктувати аналітичний шар DWH

Передача даних між системами: ETL- та ELT-процеси

  • Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
  • Дізнаєтеся, як реалізовувати ETL-рішення
  • Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
  • Навчитеся передавати дані між системами
  • З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати

Оркестрація процесів обробки даних в Apach Airflow

  • Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
  • Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
  • Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
  • Набудете навичок писати свої оператори
  • Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow

Розподілені обчислення

  • Ознайомитеся з поняттям розподілених систем і обчислень
  • Розглянете приклади сучасних розподілених систем
  • Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
  • Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
  • З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання

Екосистема Hadoop для розподіленої роботи

  • Дізнаєтеся, що таке Hadoop і де його застосовують
  • Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
  • Зрозумієте призначення кожної технології у межах екосистеми Hadoop
  • Навчитеся користуватися Hadoop Distributed File System

Розподілені системи для зберігання даних: HDFS, S3 та GCS

  • Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
  • Навчитеся працювати з розподіленою файловою системою Hadoop
  • Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
  • Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних

BigData-архітектури

  • Розберетеся в різних поколіннях архітектур
  • Зрозумієте, які проблеми розв'язує кожне покоління архітектури
  • Розглянете технології для кожної архітектури

Розподілені обчислення за допомогою Apache Spark

  • Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
  • З'ясуєте, як Apache Spark використовують для організації великих даних

Docker

  • Дізнаєтеся, що таке контейнери та навіщо вони потрібні
  • Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
  • Навчитеся обгортати власний дистрибутив у Docker

Робота зі структурованими даними: SparkSQL та PySpark. Part 1

  • Розглянете SparkSQL як API Apache Spark
  • Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL

Робота зі структурованими даними: SparkSQL та PySpark. Part 2

  • Дізнаєтеся, як вивантажувати дані зі Spark
  • Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark

Оптимізація виконання завдань в Apache Spark

  • Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
  • Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
  • Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
  • Зможете писати ефективний код у PySpark
  • Набудете навичок організовувати дані в кластері Apache Spark

Робота з потоковою обробкою даних в Apache Spark

  • Дізнаєтеся, як працювати з даними, які надходять безперервно
  • Розглянете Spark Streaming як інструмент для роботи з потоками даних
  • Зрозумієте, чим відрізняється обробка потокових даних від статичних
  • Навчитеся обробляти потоки даних за допомогою Spark Streaming

Інструменти AWS для інженерії даних. Part 1

  • Розберете Redshift як аналітичну DWH для надвеликих даних
  • Розглянете професійні інструменти аналітики та візуалізації:
    • S3
    • ECS
    • EKS
    • AWS Lambda
  • Ознайомитеся з інструментами AWS для інженерії даних
  • Навчитеся працювати з S3 та контейнерними середовищами виконання

Інструменти AWS для інженерії даних. Part 2

  • Розглянете такі інструменти, як-от:
    • Amazon MWAA
    • Kinesis
    • AWS EMR
    • AWS Glue
    • AWS Glue Data Catalog
    • AWS Athena
  • Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
  • Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації

Особливості курсу

  • Теорія + практика
  • Інструменти
  • Проєкт в портфоліо
  • Кар'єра
  • Допомога ментора
  • Сертифікат про проходження курсу

Викладачі курсу

Ілля Хороших - Data Platform Engineer at Lyft

Категорії курсу

Читайте нас в Telegram, щоб не пропустити анонси нових курсів.

Схожі курси

Навчальний центр
Sigma Software University
Формат
Online
Початок навчання
03.06.2025
Тривалість
16 занять
Рівень
Для досвідчених
Мова навчання
Ukrainian
Вартість
19 760 UAH за курс
Навчальний центр
EPAM
Формат
Online
Початок навчання
16.12.2024
Тривалість
14 тижнів
Рівень
Для початківців
Мова навчання
Ukrainian, English
Вартість
безкоштовно
Навчальний центр
CyberBionic Systematics
Формат
Online
Початок навчання
Дата формується
Тривалість
20 годин
Рівень
Для початківців, Для досвідчених
Мова навчання
Ukrainian
Вартість
5 127 UAH за курс
Навчальний центр
Networking Technologies
Формат
Online
Початок навчання
26.05.2026
Тривалість
4 днів
Рівень
Для досвідчених
Мова навчання
Ukrainian
Вартість
уточнюйте