20775А: Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight

20775А.Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight
  • Код курса:
    20775А
  • Длительность:
    5 / 40
  • Ближайшие даты:

  • Цена, без НДС:
    Уточните
Гаєвий Вадим МСТ
З 2011 року тренер  Microsoft - МСТ.
Викладає технології: Microsoft ASP.NET, Microsoft SQ...
Описание Курса:
Цель курса 20775А предоставить участнкам знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс 20775А готовит к экзаменам для подготовки к международным сертифициям:
MCSE: DATA MANAGEMENT AND ANALYTICS
MCSA: DATA ENGINEERING WITH AZURE

Курс готовит к успешной сдаче международных сертификационных экзаменов: Perform Data Engineering on Microsoft Azure HDInsight
Аудитория:
Курс 20775 предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.
Предварительная подготовка:
Обязательная предварительная подготовка:
  • Успешное окончание курса 20774А: Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure или эквивалентная подготовка.
  • Успешное окончание курса Анализ данных на языке SQL или эквивалентная подготовка.
  • Английский язык. Уровень 2. Elementary, часть 2, или эквивалентная подготовка. 
Рекомендуемая предварительная подготовка:
  • Успешное окончание курса 20767А: Разработка и эксплуатация хранилищ данных на SQL Server 2016 или эквивалентная подготовка.
Приобретаемые навыки:
По окончании курса 20775 Вы будете уметь:
  •  описывать Hadoop, MapReduce, HDInsight;
  •  описывать типы кластеров HDInsight;
  •  описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
  •  описывать, как разрешать доступ пользователей к объектам;
  •  описывать конфигурации и архитектуру хранилища HDInsight;
  •  проводить мониторинг ресурсов с Operations management suite;
  •  выполнять запросы с Hive и Pig;
  •  описывать использование ETL и Spark;
  •  внедрять интерактивные запросы;
  •  выполнять интерактивную обработку данных с помощью Apache Phoenix;
  •  управлять задачами потоковой аналитики;
  •  создавать приложения для обработки структурированных потоков в Spark;
  •  использовать потоковые данные в Storm;
  •  объяснять, как работает язык R;
  •  преобразовывать и очищать наборы данных.
Содержание курса:
Модуль 1. Начало работы с HDInsight
  • Большие данные
  • Hadoop
  • MapReduce
  • HDInsight
Лабораторная работа: Запросы к большим данным
  • Запросы к данным с Hive
  • Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
  • Типы кластеров HDInsight
  • Управление кластерами HDInsight
  • Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
  • Создание кластера Hadoop в HDInsight
  • Настройка HDInsight с помощью скрипта
  • Настройка HDInsight с помощью Bootstrap
  • Удаление кластера HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
  • Недоменные кластеры
  • Настройка кластера HDInsight, подключенного к домену
  • Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
  • Настройка кластера HDInsight, подключенного к домену
  • Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
  • Хранилище HDInsigh
  • Средства загрузки данных
  • Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
  • Загрузка данных с помощью Sqoop
  • Загрузка данных с помощью AZcopy
  • Загрузка данных с помощью ADLcopy
  • Использование HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
Анализ журналов

  • Журналы YARN
  • Дампы кучи (Heap)
  • Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
  • Анализ журналов HDInsight
  • Анализ журналов YARN
  • Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
  • Хранилище Apache Hive
  • Запросы с Hive и Pig
  • Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
  • Загрузка данных в таблицу Hive
  • Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
  • Что такое Spark?
  • ETL и Spark
  • Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
  • Создание кластера HDInsight с доступом к хранилищу Data Lake
  • Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
  • Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
  • Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
  • Внедрение интерактивных запросов для больших данных с помощью Hive
  • Проведение исследовательского анализа данных с помощью Hive
  • Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
  • Внедрение интерактивных запросов для больших данных с помощью Hive
  • Проведение исследовательского анализа данных с помощью Hive
  • Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
  • Потоковая аналитика
  • Обработка потоковых данных из потоковой аналитики
  • Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
  • Обработка потоковых данных из потоковой аналитики
  • Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
  • Обзор когнитивных служб
  • DStream
  • Создание приложений для обработки структурированных потоков в Spark
  • Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
  • Создание приложения Spark Streaming с помощью DStream API
  • Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
  • Долгохранимые данные
  • Потоковые данные в Storm
  • Создание топологии Storm
  • Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
  • Потоковые данные в Storm
  • Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Лабораторная работа: Использование R-сервисов машинного обучения
  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
Экзамен:
Материалы и сертификаты:
Microsoft 
Акцент Профи
Расписание курсов на 6 месяцев

Возврат к списку









Зарегистрироваться на Курс 10961 Автоматизация администрирования с Windows PowerShell