HDDE: Hadoop для инженеров данных: Курсы
Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания "pipelines" — традиционных источников поступления данных (корпоративные базы данных,...
IT: Для программистов и IT-специалистовIT: Для программистов и IT-специалистов / Программирование

6 июня 2022
40 часов
Москва
Коммерсант
от 100 000 ₽
Анонс программы
Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания "pipelines" — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.Целевая аудитория
Для руководителей, менеджеров и специалистов, желающих получить расширенные знания по инструментам и методам анализа больших данных для участия в проектах больших данных.Преподаватель
Николай КомиссаренкоОписание Программы
- Основные концепции Hadoop
- Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
- Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
- Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
- Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
- Инструменты управления кластером
- Выполнение базовых операций с Cloudera Manager/Apache Ambari.
- Настройка компонент Apache ZooKeeper.
- Создание и управление запросами и данными с использованием сервиса Hue.
- Хранение данных в HadoopDFS
- Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, RCfile, ORC, Parquet.
- Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
- Apache Spark
- Архитектура Apache Spark.
- Введение в Spark: RDD & Datasets
- Доступ к внешним данным из Spark
- Интеграция с Hadoop, запуск приложений
- Spark streaming
- Spark SQL
- Datasets, Dataframes
- Импорт/экспорт данных в кластер Hadoop
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Технологии NoSQL
- Сравнительная характеристика решений Hadoop SQL
- Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт, Hive экспорт Apache Hive
- Apache Hive
- Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
- Cloudera Impala
- Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
- Оптимизация Impala запросов
- Потоковые данные
- Event Processing System. Импорт потоковых данных в кластер
- Использование Kafka для работы с потоковыми данными
- Использование Flume для работы с потоковыми данными
- Визуализация потоковых данных
Cписок практических занятий:
- Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager и поддержка базовых операций с кластером Hadoop и HDFS.
- Управление ресурсами и запуском задач с использованием YARN MapReduce.
- Использование Apache Pig для подготовки данных, операции JOIN
- Использование Apache Hive для анализа данных
- Оптимизация запросов JOIN в Apache Hive
- Настройка partition и bucket в Apache Hive
- Инкрементальный импорт/экспорт данных с помощью Apache sqoop
- SQL аналитика данных с помощью Cloudera Impala
- Batch процессинг данных с использованием Apache Spark
- Потоковая обработка данных с использованием Apache Spark
- Импорт данных с помощью Apache Flume
- Построение Event Processing System с использованием Apache Flume и Kafka
- Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса B
Записаться на курс
HDDE: Hadoop для инженеров данных: Курсы
100 000 ₽
6 июня 2022
40 часов
Москва
Коммерсант
от 100 000 ₽
Как добраться?
Москва, КоммерсантХотите попасть на мероприятие?
Другие курсы
Технология изготовления и контроля средств коррекции зрения: Программа переподготовки

50 000 ₽
Открытый набор
Новосибирск, ул. Плахотного, 10. Кабинет № 108.
Бизнес-брокеридж: Тренинг

35 000 ₽
Открытый набор
Москва, Москва, Кривоколенный переулок дом 5 стр 4, офис 401
Возможности алгоритмической торговли в MetaTrader4

Бесплатно
Открытый набор
Онлайн