DPREP: подготовка данных для на PYTHON: Повышение квалификации

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.
IT: Для программистов и IT-специалистовIT: Для программистов и IT-специалистов / Информационные системы и технологии
Коммерсант логоКоммерсант
12 октября 2022
32 часа
Москва
Коммерсант
от 80 000 ₽

Анонс программы

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.

Целевая аудитория

Для статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Datan.

Преподаватель

Николай Комиссаренко

Описание Программы

1. Продвинутые возможности библиотек языка python для обработки и визуализации данных

Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках

Теоретическая часть:

  • изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
  • обзор основных приемов по работе с данными:
    • первичный анализ данных
    • получение описательных статистик
    • изменение типа данных
    • построение сводных таблиц
    • визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, "ящики с усами" и "виолончели")

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

2. Библиотеки python в корректировании типичных особенностей в данных

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

  • обзор типичных особенностей в данных и подходов к их корректировке:
    • отсутствующие значения
    • выбросы
    • дубликаты
  • подготовка данных для использования в алгоритмах машинного обучения:
    • нормализация числовых данных
    • преобразование категориальных значений
    • работа с текстовыми данными

Практическая часть: подготовка "сырых" данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма

3. Подходы к построению дополнительного признакового пространства на основе исходных данных

Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn

Теоретическая часть:

  • обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
    • увеличение размерности исходного признакового пространства
      • постановка задачи в случае обучения с учителем – с использованием целевой переменной
      • постановка задачи в случае обучения без учителя
    • уменьшение размерности исходного признакового пространства
  • подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
    • статистические методы фильтрации признаков в задачах классификации и регрессии
    • методы машинного обучения как инструменты для получения наиболее значимых признаков в данных

Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения

4. Проектная работа

Цель: закрепить полученные слушателями курса знания по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

Курс позволит вам получить “продвинутые” знания и прикладные навыки подготовки "сырых" датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.

Также курс "Подготовка данных для Data Mining на Python" будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.

Записаться на курс
DPREP: подготовка данных для на PYTHON: Повышение квалификации
80 000
Заполните контактные данные
Оставьте заявку, чтобы забронировать себе место.
Наш менеджер свяжется с вами и ответит на любые ваши вопросы.
12 октября 2022
32 часа
Москва
Коммерсант
от 80 000 ₽
Как добраться?
Москва, Коммерсант