Углубленный курс по самым мощным инструментам обработки больших данных. Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive.
На курсе вы изучите следующие основные темы: - Hadoop (основные компоненты, дистрибутивы вендоров) - Архитектура HDFS - Архитектура YARN - Форматы данных - Spark - Spark Streaming и Flink - Hive - Оркестрация, Мониторинг и CI/CD и т.д.
После прохождения курса вы сможете: - Использовать Hadoop для обработки данных - Взаимодействовать с его компонентами через консольные клиенты и API - Работать со слабоструктурированными данными в Hive - Писать и оптимизировать приложения на Spark - Писать тесты для Spark-приложений - Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов - Настраивать CI и мониторинг Spark-приложений
Программа курса Тема 01. Основы Scala Тема 02. Сборка проектов на Scala Тема 03. Hadoop Тема 04. HDFS Тема 05. YARN Тема 06. Форматы данных Тема 07. Архитектура приложения Spark Тема 08. RDD/Dataframe/Dataset Тема 09. Методы оптимизации приложений Spark Тема 10. Написание коннекторов для Spark Тема 11. Тестирование приложений Spark Тема 12. Spark ML Тема 13. Kafka Тема 14. Spark Streaming Тема 15. Structured Streaming Тема 16. Flink - часть 1 Тема 17. Flink - часть 2 Тема 18. Обзор Hive Тема 19. HiveQL Тема 20. Оркестрация процессов обработки данных Тема 21. Мониторинг и логирование для Spark-приложений Тема 22. CI/CD для Spark и Hive Тема 24. Консультация по проектам и домашним заданиям Тема 25. Защита проектных работ
Информация о видео Название: Экосистема Hadoop, Spark, Hive Автор: Коллектив Год выхода: 2021 Жанр: Видеокурс Язык: Русский Выпущено: Россия Продолжительность: 38:43:33