На направлении анализа данных и машинного обучения участники делятся на 2 группы: проектная и
базовая.
В проектной группе команды углубленно изучают более узкие темы, например, reinforcement learning,
generative adversarial networks и т.п. Реализуют свои идеи или решают задачи от компаний-партнеров
от рекомендательных систем до элементов искусственного интеллекта.
В базовой группе участники познакомятся с основными алгоритмами машинного обучения для задач
классификации и регрессии, методами предобработки данных и оценки качества решений.
Примерная программа базового трека:
- Введение. Задачи и терминология машинного обучения: supervised и unsupervised задачи; регрессия, классификация, кластеризация. Объект, признак, типы признаков, методы работы с ними. Метрики качества.
- Изучение основ работы с векторными данными и визуализацией в Python (библиотеки numpy и matplotlib).
- Градиент. Методы оптимизации гладких функций. Реализация градиентного спуска для линейной регрессии.
- Выделение признаков из текста: one-hot encoding, стемминг, лемматизация, tf-idf преобразование. Логистическая регрессия на примере задачи эмоциональной окраски текстов. L1 и L2 регуляризация.
- Способы оценки качества моделей: holdout и кросс-валидация.
- Метод ближайших соседей. Деревья решений, случайный лес, градиентный бустинг. Решение соревнования на платформе Kaggle. Способы построения композиций моделей.
- Алгоритмы кластеризации: K-means, DBscan, агломеративная кластеризация. Методы понижения размерности на основе матричных разложений (PCA и SVD). T-SNE.
- Введение в нейронные сети - полносвязные нейросети, метод обратного распространения ошибки, инициализация весов, нелинейности. Обзор стохастических методов оптимизации первого порядка.
- Знакомство с фреймворком PyTorch, реализация первой нейросети.
- Сверточные нейросети. Признаки, выделяемые сверточной нейросетью. Дообучение глубоких нейросетей для новой задачи. Решение конкурса на классификацию изображения на платформе Kaggle.
- Архитектура Word2Vec. Свойства получаемых векторов. Сверточная архитектура FastText.
- Рекуррентные нейронные сети. Проблема затухающего градиента. GRU и LSTM сети.
- Sequence-to-Sequence: машинный перевод, генерация названия по химической формуле.
- Введение в Reinforcement Learning.