Курс Data Engineering

  • Online
  • Для початківців
  • Data Engineer / Big Data
Навчальний центр: Robot Dreams
Формат:Курс
Мова викладання:Ukrainian
Тривалість навчання:19 занять
Початок курсу:29.10.2025
Вартість навчання:Уточнюйте

Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються. Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.

Програма курсу

Intro до курсу Data Engineering

  • Дізнаєтеся про історію інженерії даних та Big Data
  • З'ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обов'язки
  • Розглянете технології, з якими працюватимете на курсі
  • Зрозумієте, які завдання розв'язує конкретна Big Data технологія

Python для Data Engineering

  • Навчитеся правильно будувати сервіс на Python для обробки даних
  • Набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
  • Дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних

SQL для Data Engineering

  • Зрозумієте, для чого використовують SQL у Big Data
  • Розглянете базові операції SQL для обробки великих даних
  • Навчитеся обирати, об'єднувати, групувати й аналізувати дані за допомогою SQL-запитів

Аналітичні бази даних

  • Дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
  • Зрозумієте технічну реалізацію СУБД, призначених для аналітики
  • З'ясуєте, як правильно писати SQL-запит до аналітичної БД

Проєктування сховищ даних

  • Дізнаєтеся, що таке шари даних
  • З'ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
  • Вивчите підходи до створення сховищ даних
  • Ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
  • Розберете, як влаштовані сховища даних
  • Навчитеся представляти дані у вигляді вітрин
  • Розглянете принципи побудови аналітичного шару DWH:
    • куби даних і багатовимірна модель
    • схема "зірка"
    • схема "сніжинка"
    • підходи до проєктування Кімбала та Інмана
  • Зможете проєктувати аналітичний шар DWH

Передача даних між системами: ETL- та ELT-процеси

  • Детально розглянете Extract, Transform, Load (ETL) - найпопулярніший спосіб забезпечення роботи сховищ великих даних
  • Дізнаєтеся, як реалізовувати ETL-рішення
  • Докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
  • Навчитеся передавати дані між системами
  • З'ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати

Оркестрація процесів обробки даних в Apach Airflow

  • Розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
  • Запустите Apache Airflow на своєму комп'ютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
  • Дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
  • Набудете навичок писати свої оператори
  • Навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow

Розподілені обчислення

  • Ознайомитеся з поняттям розподілених систем і обчислень
  • Розглянете приклади сучасних розподілених систем
  • Дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв'язують та які готові рішення вже існують
  • Зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
  • З'ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розв'язання конкретного завдання

Екосистема Hadoop для розподіленої роботи

  • Дізнаєтеся, що таке Hadoop і де його застосовують
  • Опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
  • Зрозумієте призначення кожної технології у межах екосистеми Hadoop
  • Навчитеся користуватися Hadoop Distributed File System

Розподілені системи для зберігання даних: HDFS, S3 та GCS

  • Розберете файлові, блокові та об'єктні сховища даних - їхні відмінності та Use Cases
  • Навчитеся працювати з розподіленою файловою системою Hadoop
  • Зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
  • Розглянете Amazon S3 та Google Cloud Storage як приклади об'єктних сховищ даних

BigData-архітектури

  • Розберетеся в різних поколіннях архітектур
  • Зрозумієте, які проблеми розв'язує кожне покоління архітектури
  • Розглянете технології для кожної архітектури

Розподілені обчислення за допомогою Apache Spark

  • Дізнаєтеся, які завдання розв'язує Apache Spark і в чому його відмінність від MapReduce
  • З'ясуєте, як Apache Spark використовують для організації великих даних

Docker

  • Дізнаєтеся, що таке контейнери та навіщо вони потрібні
  • Зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
  • Навчитеся обгортати власний дистрибутив у Docker

Робота зі структурованими даними: SparkSQL та PySpark. Part 1

  • Розглянете SparkSQL як API Apache Spark
  • Навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL

Робота зі структурованими даними: SparkSQL та PySpark. Part 2

  • Дізнаєтеся, як вивантажувати дані зі Spark
  • Навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark

Оптимізація виконання завдань в Apache Spark

  • Дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
  • Розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
  • Зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
  • Зможете писати ефективний код у PySpark
  • Набудете навичок організовувати дані в кластері Apache Spark

Робота з потоковою обробкою даних в Apache Spark

  • Дізнаєтеся, як працювати з даними, які надходять безперервно
  • Розглянете Spark Streaming як інструмент для роботи з потоками даних
  • Зрозумієте, чим відрізняється обробка потокових даних від статичних
  • Навчитеся обробляти потоки даних за допомогою Spark Streaming

Інструменти AWS для інженерії даних. Part 1

  • Розберете Redshift як аналітичну DWH для надвеликих даних
  • Розглянете професійні інструменти аналітики та візуалізації:
    • S3
    • ECS
    • EKS
    • AWS Lambda
  • Ознайомитеся з інструментами AWS для інженерії даних
  • Навчитеся працювати з S3 та контейнерними середовищами виконання

Інструменти AWS для інженерії даних. Part 2

  • Розглянете такі інструменти, як-от:
    • Amazon MWAA
    • Kinesis
    • AWS EMR
    • AWS Glue
    • AWS Glue Data Catalog
    • AWS Athena
  • Дізнаєтеся, як виконати ad-hoc запит до S3-об'єктів в AWS Athena
  • Зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації

Особливості курсу

  • Теорія + практика
  • Інструменти
  • Проєкт в портфоліо
  • Кар'єра
  • Допомога ментора
  • Сертифікат про проходження курсу

Викладачі курсу

Ілля Хороших - Data Platform Engineer at Lyft

Категорії курсу

Читайте нас в Telegram, щоб не пропустити анонси нових курсів.

Схожі курси

Навчальний центр
CyberBionic Systematics
Формат
Online
Початок навчання
Дата формується
Тривалість
20 годин
Рівень
Для початківців, Для досвідчених
Мова навчання
Ukrainian
Вартість
5 127 UAH за курс
Навчальний центр
Networking Technologies
Формат
Online
Початок навчання
26.05.2026
Тривалість
4 днів
Рівень
Для досвідчених
Мова навчання
Ukrainian
Вартість
уточнюйте
Навчальний центр
EPAM
Формат
Online
Початок навчання
Будь-який момент
Тривалість
3 місяців
Рівень
Для початківців
Мова навчання
English
Вартість
безкоштовно
Навчальний центр
EPAM
Формат
Online
Початок навчання
16.12.2024
Тривалість
14 тижнів
Рівень
Для початківців
Мова навчання
Ukrainian, English
Вартість
безкоштовно