20775А: Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight

20775А.Обработка Данных с Microsoft HDInsight. Performing Data Engineering on Microsoft HD Insight

Код курса:

20775А
Длительность:

5 / 40
Ближайшие даты:
Цена, без НДС:

Уточните

Гаєвий Вадим МСТ: З 2011 року тренер Microsoft - МСТ.
Викладає технології: Microsoft ASP.NET, Microsoft SQ...

Описание Курса:

Цель курса 20775А предоставить участнкам знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Курс 20775А готовит к экзаменам для подготовки к международным сертифициям:
MCSE: DATA MANAGEMENT AND ANALYTICS
MCSA: DATA ENGINEERING WITH AZURE

Курс готовит к успешной сдаче международных сертификационных экзаменов: Perform Data Engineering on Microsoft Azure HDInsight

Аудитория:

Курс 20775 предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.

Предварительная подготовка:

Обязательная предварительная подготовка:

Успешное окончание курса 20774А: Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure или эквивалентная подготовка.
Успешное окончание курса Анализ данных на языке SQL или эквивалентная подготовка.
Английский язык. Уровень 2. Elementary, часть 2, или эквивалентная подготовка.

Рекомендуемая предварительная подготовка:

Успешное окончание курса 20767А: Разработка и эксплуатация хранилищ данных на SQL Server 2016 или эквивалентная подготовка.

Приобретаемые навыки:

По окончании курса 20775 Вы будете уметь:

описывать Hadoop, MapReduce, HDInsight;
описывать типы кластеров HDInsight;
описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
описывать, как разрешать доступ пользователей к объектам;
описывать конфигурации и архитектуру хранилища HDInsight;
проводить мониторинг ресурсов с Operations management suite;
выполнять запросы с Hive и Pig;
описывать использование ETL и Spark;
внедрять интерактивные запросы;
выполнять интерактивную обработку данных с помощью Apache Phoenix;
управлять задачами потоковой аналитики;
создавать приложения для обработки структурированных потоков в Spark;
использовать потоковые данные в Storm;
объяснять, как работает язык R;
преобразовывать и очищать наборы данных.

Содержание курса:

Модуль 1. Начало работы с HDInsight

Большие данные
Hadoop
MapReduce
HDInsight

Лабораторная работа: Запросы к большим данным

Запросы к данным с Hive
Запросы к данным с Excel

Модуль 2. Развертывание кластеров HDInsight

Типы кластеров HDInsight
Управление кластерами HDInsight
Управление кластерами HDInsight с помощью PowerShell

Лабораторная работа: Управление кластерами HDInsight в Azure

Создание кластера Hadoop в HDInsight
Настройка HDInsight с помощью скрипта
Настройка HDInsight с помощью Bootstrap
Удаление кластера HDInsight

Модуль 3. Авторизация пользователей для доступа к ресурсам

Недоменные кластеры
Настройка кластера HDInsight, подключенного к домену
Управление подключенным к домену кластером HDInsight

Лабораторная работа: Авторизация пользователей для доступа к ресурсам

Настройка кластера HDInsight, подключенного к домену
Настроить политики Hive

Модуль 4. Загрузка данных в HDInsight

Хранилище HDInsigh
Средства загрузки данных
Производительность и надёжность

Лабораторная работа: Загрузка данных в HDInsight

Загрузка данных с помощью Sqoop
Загрузка данных с помощью AZcopy
Загрузка данных с помощью ADLcopy
Использование HDInsight для сжатия данных

Модуль 5. Поиск и устранение неисправностей в HDInsight
Анализ журналов

Журналы YARN
Дампы кучи (Heap)
Operations management suite

Лабораторная работа: Поиск и устранение неисправностей в HDInsight

Анализ журналов HDInsight
Анализ журналов YARN
Мониторинг ресурсов с Operations management suite

Модуль 6. Внедрение пакетных решений

Хранилище Apache Hive
Запросы с Hive и Pig
Подключение HDInsight

Лабораторная работа: Резервное копирование баз данных SQL Server

Загрузка данных в таблицу Hive
Запрос данных в Hive и Pig

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark

Что такое Spark?
ETL и Spark
Производительность Spark

Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

Создание кластера HDInsight с доступом к хранилищу Data Lake
Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
Управление ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8. Анализ данных со Spark SQL