1. Обзор Apache Spark
Архитектура Spark. Обзор компонентов Spark и их назначения 2. Основные абстракции Apache Spark
Трансформации и действия, Lazy Evaluation 3. Знакомство с Dataframes
Structured API и основная абстракция Spark – Dataframe 4. Знакомство со Spark RDD
Low Level API, использование Resilient Distributed Dataset 5. Apache Spark SQL
Получение данных из SQL-источников и обработка данных с помощью Spark SQL Отправка данных в SQL СУБД и работа с Hive QL Spark SQL и Hadoop 6. Работа с источниками данных
Ввод и вывод в Apache Spark Работа с файлами и базами данных 7. Производительность и параллелизм в Apache Spark
Планы выполнения запроса: логические и физические 8. Конфигурирование Apache Spark
Принципы конфигурирования и основные настройки 9. Spark Streaming и Structured Streaming
Виды потоковой обработки в Apache Spark Особенности исполнения streaming кода Checkpoint в Spark Streaming 10. GraphX и ML
Место и особенности графовых моделей в программировании Задачи машинного обучения и проблематика больших данных Основные возможности Spark ML 11. Обработка слабоструктурированных данных
Работа с JSON и XML файлами, особенности и возможности 12. Современный Spark
pandas API в spark Spark Connect: долгоживущие сессии Spark on Kubernetes (будущее в настоящем) Delta Lake – технологическая основа LakeHouse Подробна яинформация о программе: https://bigdataschool.ru/courses/apache-spark-sql https://shkola-bolshih-dannyh.timepad.ru/event/3381221/
изменить информацию сообщить о проблеме