Анализ данных
и машинное обучение

На направлении анализа данных и машинного обучения участники делятся на 2 группы: проектная и базовая.
В проектной группе команды углубленно изучают более узкие темы, например, reinforcement learning, generative adversarial networks и т.п. Реализуют свои идеи или решают задачи от компаний-партнеров от рекомендательных систем до элементов искусственного интеллекта.
В базовой группе участники познакомятся с основными алгоритмами машинного обучения для задач классификации и регрессии, методами предобработки данных и оценки качества решений.
Примерная программа базового трека:

  • Введение. Задачи и терминология машинного обучения: supervised и unsupervised задачи; регрессия, классификация, кластеризация. Объект, признак, типы признаков, методы работы с ними. Метрики качества.

  • Изучение основ работы с векторными данными и визуализацией в Python (библиотеки numpy и matplotlib).

  • Градиент. Методы оптимизации гладких функций. Реализация градиентного спуска для линейной регрессии.

  • Выделение признаков из текста: one-hot encoding, стемминг, лемматизация, tf-idf преобразование. Логистическая регрессия на примере задачи эмоциональной окраски текстов. L1 и L2 регуляризация.

  • Способы оценки качества моделей: holdout и кросс-валидация.

  • Метод ближайших соседей. Деревья решений, случайный лес, градиентный бустинг. Решение соревнования на платформе Kaggle. Способы построения композиций моделей.

  • Алгоритмы кластеризации: K-means, DBscan, агломеративная кластеризация. Методы понижения размерности на основе матричных разложений (PCA и SVD). T-SNE.

  • Введение в нейронные сети - полносвязные нейросети, метод обратного распространения ошибки, инициализация весов, нелинейности. Обзор стохастических методов оптимизации первого порядка.

  • Знакомство с фреймворком TensorFlow, реализация первой нейросети.

  • Сверточные нейросети. Признаки, выделяемые сверточной нейросетью. Дообучение глубоких нейросетей для новой задачи. Решение конкурса на классификацию изображения на платформе Kaggle.

  • Архитектура Word2Vec. Свойства получаемых векторов. Сверточная архитектура FastText.

  • Рекуррентные нейронные сети. Проблема затухающего градиента. GRU и LSTM сети.

  • Sequence-to-Sequence: машинный перевод, генерация названия по химической формуле.

  • Введение в Reinforcement Learning.