Примеры проектов

Перед вами примеры проектов. Этот список создан для ознакомления с программой проектных треков, спецификой школы и примерами задач от организаторов, возможность предложить любую идею приветствуется вплоть до самого начала школы.

Любой из проектов можно реализовать с разной степенью погружения: от простого прототипа до полноценного исследования или продукта.

...

Олег Васильев

Разработчик объектного хранилища в Яндексе, выпускник ФКН НИУ ВШЭ

#algo #infra #go

...

Антон Панкратов

Machine Learning Scientist в Amazon.

#ml

...

Андрей Творожков

Big Data, ML, Full-stack, предприниматель.

#web #ml

...

Ростислав Бородин

Профессиональный преподаватель современного программирования. Full-stack разработчик. Специалист по разработке медицинских сервисов. Выпускник ФКН НИУ ВШЭ.

#web #медицина

...

Александр Панин

Преподаватель направления анализа данных в GoTo. Специалист в области машинного обучения, разработчик проектов CERN-Яндекс, преподаватель ФКН ВШЭ и школы анализа данных Яндекса, ЛЭШ.

#ml



Сбросить фильтры

Предложить
идею проекта

Чат-бот для консультаций

Чат-бот для консультаций и ответов на часто задаваемые вопросы о нашей школе. В текущей постановке бот должен обучиться по заданной базе "вопрос-ответ" отвечать пользователям (если похожий вопрос есть в базе) или же переадресовывать вопрос на живого человека. Также необходимо реализовать сбор обратной связи от пользователей с последующим дообучением на новых данных, возможность поиска ответа по текстам с сайта школы, например, если вопроса нет в базе, но при этом информация легко ищется по сайту. Чат-бот должен легко масштабироваться и переноситься на любые другие проекты и организации.

#ml #чатботы

Сделать GitHub для pijul

Никому не нравится мёрджить. Это не только нужно делать руками; легко потерять пару строк - и потом долго отлаживать. Поэтому придумали darcs и теорию патчей. А потом сделали ещё лучше - pijul. Pijul - самый классный VCS, потому что патчи просто берут и накладываются: не эвристиками, а детерменированно. Есть только одна проблема: adoption. А чтобы adoption, нужен фронтенд-ориентированный интерфейс. Сделаем! Здесь же можно поэкспериментировать на предмет "а может, не будем делать один большой сервер для децентрализованной системы?", но юзабельные identity и discovery быть должны.

#web #infra #верификация

Распределятор

В рамках школы нам довольно часто приходится делить участников на какие-то группы: по направлениям, уровню и специфике подготовки, интересам, возрасту и т.п. Предлагается реализовать алгоритм для подобных распределений и интерфейс к нему. На вход подается список участников процесса, а также в зависимости от постановки задачи дополнительная информация, например, результаты теста или собеседования, анкета или история участия.

#algo #оптимизация

Картограф

Задача состоит в том, чтобы уподобиться продвинутому роботу-пылесосу и построить карту помещения с помощью набора камер и компьютерного зрения. Робот должен распознать границы помещения произвольной формы и наполнения, используя стереоскопическую систему камер, и построить его карту.

#роботы #cv

Продвинутые онлайн-карты

Функциональность большинства онлайн-карт предоставляет собой конечный набор сценариев: поиск кратчайшего пути и места поблизости из какой-то категории. Тем не менее, есть и более сложные пользовательские сценарии планирования передвижений, например, планирование встреч для нескольких людей с посещением конкретных типов мест, составление сложных маршрутов с учетом индивидуальных параметров. В рамках проекта предлагается реализовать собственную геоинформационную систему с модульной архитектурой запросов и эффективными алгоритмами поиска по геоиндексу.

#algo #графы

Вкрутить nix в Qubes

Nix the package manager объединяет в себе apt-get, pip, docker-build и Makefile и делает распространение софта лучше для всех, а Qubes - the прагматическая безопасность на десктопе-ОС, но сейчас они не дружат: store дублируется во всех ВМ, в которых установлен nix. Можно сделать процесс намного эффективнее, выделив отдельную ВМ для общего store. Какие допущения это вносит в нашу модель угроз? Другой вектор - собрать NixOS для Qubes.

#infra #opensource

FindFace

Мобильное приложение для идентификация человека по загруженной вами фотографии и поиска информации о нем из открытых источников. Пример кейса: поиск профиля в соцсетях понравившейся в метро девушки.

#web #ml

Полевой кластер

В ходе проведения летней школы иногда возникают проблемы с интернетом: гроза мешает тарелке связаться со спутником, или шотландская корова может перегрызть кабель. Поэтому довольно актуальным представляется мини-проект для группы распределенных систем: перед реализацией основных проектов участники развернут и протестируют кластер из своих ноутбуков для распределенных вычислений.

#infra

GitHub-ассистент

Подсказки, рекомендации и интеллектуальный поиск по репозиториям. Примеры кейсов: рекомендации репозиториев с похожими блоками кода для обучающегося, подсказки при начале повторном написании реализованного ранее блока в больших и длительных проектах.

#web #ml

Анализ эпигенетического контекста

Целью анализа является установления эпигенетического контекста, в котором происходят возрастные изменения метилирования. С помощью публичных данных Blueprint consortium о метилировании генома классических моноцитов изолированных из пуповинной крови и крови пожилых доноров (60-70 лет), были найдены участки, в которых уровень метилирования изменяется с возрастом. В рамках проекта предлагается охарактеризовать эти регионы относительно других функциональных аннотаций генома.

#ml #биоинформатика

Автоматическое составление расписания

Сейчас в большинстве университетов и школ расписание составляются вручную. У этого подхода есть существенные минусы: не получается быстро перестроить расписание под новые обстоятельства; число независимых групп обучающихся ограничено, что мешает формировать индивидуальные образовательные траектории. В рамках проекта необходимо разработать инструмент, который по входным параметрам сможет выдать удобное для студентов и преподавателей расписание без внутренних конфликтов. #algo #оптимизация

#algo #оптимизация

Бот для решения тестовых заданий ЕГЭ

Решение тестовых заданий ЕГЭ методами машинного обучения, а также последующим расширением функционала на один из типов задач: с числовыми ответами, множественным выбором, графической информацией – вплоть до реализации модели для решения всех тестовых заданий в рамках одного предмета.

#ml

Бот для игры Pommerman

В простой вариации нужно реализовать одиночного бота для упрощенного аналога игры Bomberman. Более сложные опции - участие в командном режиме и создание команды ботов для режима с коммуникацией Team Radio (одно из соревнований NIPS 2018 Competition Track) с написанием статьи по итогам.

#ml #rl

Matrix без интернета

Нецензурируемые коммуникации и децентрализация сейчас модно; но мало у кого есть юзабельные решения. Matrix - одно из более лучших FLOSS-решений, работающий на федерации: но каждый отдельный сервер всё равно можно забанить, и между ними неудобно мигрировать. Идеальная схема - это p2p-сеть с динамической маршрутизацией, продуманной инцентивизацией storage hub'ов, защитой метаданных, работающая поверх кастомного радио; но как итеративно двигаться к этому? Можно начать с открепления пользователей от сервера. Есть и кейс. Деревня, в которой мы проводим школы с интернетом, который не рад, если кто-то загрузил в облако видео про козочку, чтобы его потом пятьдесят раз скачали обратно. Нужно оптимизировать content distribution - например, раздавая медиа IPFS.

#infra #opensource

Умный криптографический замок

Умный замок для нашего будущего хакспейса с нехитрыми свойствами: устойчивость к копированию ключа и replay-атакам, возможность открыть дверь удалённо и дать доступ произвольному человеку, разные привилегии для типов пользователей, охват нескольких дверей. И самое главное, чтобы им могли и хотели пользоваться люди, которые не имеют даже представления о программировании.

#робот #infra

Поиск аномалий в метагеномных данных

В биоинформатике, как и в любой дисциплине, предполагающей работу с данными, обрабатываемая информация может быть искажена - например, из-за несовершенства технологии, либо человеком по ошибке. В проекте предлагается придумать и реализовать метод обнаружения аномальных и контаминированных данных для метагеномных чтений ДНК микробных сообществ.

#биоинформатика #ml

Голосовое управление системой устройств

Задача проекта состоит в том, чтобы собрать домашнее устройство, распознающее члена семьи и команду с последующим ее исполнением. Первая часть проекта делится на задачу распознавания речи, задачу аутентификации владельцев и задачу конфигурирования API для работы с домашними устройствами. Вторая часть (железная) может представлять из себя систему освещения и климат-контроля, замки, домашний кинотеатр или любое другое устройство.

#робот #web #ml

Генерация музыки и ее стилизация

Генерация музыки в заданном жанре или в стиле конкретного исполнителя с помощью нейронных сетей. Дополнительно можно учиться генерировать исполнения существующих песен в другом стиле.

#ml

Движок для рендеринга 3D моделей

Пишем свой движок для ray-tracing и отрисовки 3D сцен. Дополнительно изучаем разные модели света и тени, а также algo для оптимизации отрисовки.

#algo #3d

Клонирование и генерация голоса человека

Представьте, что вы бы могли отправлять звуковые сообщения голосом любого человека на земле. Интригует? Тогда давайте попробуем это сделать. Например, можно взять выборку из записи речи разных людей и текстов и обучить нейронную сеть так, чтобы предпоследний слой нейронов характеризовал голос. На основе этого вектора весов предпоследнего слоя нейронной сети можно попробовать дообучить WaveNet. Тогда в теории получится озвучить текст голосом другого человека.

#ml

Генерирование иллюстраций к статьям Кота Шредингера

Кот Шредингера в этом году выпускает свой web проект и им пришла идея поэкспериментировать с процессом подготовки статей к выпуску - они решили отобрать хлеб у иллюстраторов. Задача заключается в размещении объектов на фотографии и их последующей стилизации. (Как это делается здесь.) Также есть идея расширить функционал для генерирования GIF'ок.

#ml

Визуализация пространственно-временного куба в AR

Компания Habidatum предлагает реализовать приложение на iOS/Android для визуализации пространственно-временного 3D куба на реальных поверхностях. Предлагается использовать ARKit или ARCore.

#3d #ar

Инструмент анализа микросообществ архитекторов

Компания Soft Culture предлагает реализовать инструмент для анализа социальных графов. Это необходимо им для построения оптимальной стратегии развития в регионах.

#ml

Менеджер холодильника

Чат-бот или веб-приложение, способное поддерживать текущее содержимое холодильника и прочих мест на кухне. При приготовлении заранее заготовленной кнопкой можно сконвертировать продукты в блюдо и отметить ему срок годности. Когда продукты портятся или кончаются, они автоматически добавляются в список покупок. Можно прикрутить интеграцию с ОФД.

#чатбот

Доброе утро, @username

Тегалка для чатов в телеграмме. Умеет понимать нечёткие предикаты (@все, @онлайн, @ваня) и призывать нужных людей в чате.

#чатбот

Ковёр

Виртуальная камера с удалением фона и его заменой на то, что душе угодно

#ml

Резюминка

Сервис для генерации годного резюме или проверки на распространенные факапы.

#ml #генерация

Первый Канал

Канал Jetix огонь, но его закрыли. Давайте сделаем свой телеканал, который будет стримить торренты. А управлять им можно будет чат-ботом.

#чатбот #web

Нухотьтак

Кастомная игра для обучения программированию: веб-сервис, на котором нужно писать код для разных игр (от танчиков до доты) и соревноваться с другими дилетантами.

#web #игры

Gräddfil

Система аггрегации и анализа Quantified Self информации: есть ли корреляция между погодой и колличеством набранных символов за день

#web #ml

Патчи в duplicacy

https://github.com/gilbertchen/duplicacy - это проект, позволяющий удобно и конкурентно делать бэкапы. К сожалению, сейчас в duplicacy нет возможности смонтировать репозиторий в папку, чтобы селективно взять какие-то файлы из бэкапа. В рамках проекта предлагается такую возможность разработать.

#opensource #go #infra

Система управления личным здоровьем

Существует много систем, позволяющих больницам управляеть ведением пациентов. Однако, довольно часто пациенты ходят в разные клиники, сдают анализы в разных лаботориях. Хотелось бы иметь инструмент для аггрегации всей персональной медицинской информации

#web #медицина

Embedded fault-tolerant storage

Бывают распределенные отказоусточивые базы данных, а бывают встраиваемые хранилища. Совместив эти два свойство можно получить интересное решение для небольших production-приложений

#infra

Фото ребёнка по фото родителей

С помощью нейросетей можно извлекать из картинок смысловую и визуальную информацию, и представлять её в виде набора чисел. В то же время, из таких наборов чисел с помощью нейросетей можно генерировать изображения обратно. Особенно реалистично нейросети генерируют фотографии лиц. Идея этого проекта пойти чуть дальше - с помощью нейросетей сделать сервис, который по фото двух людей будет генерировать фотографию их ребёнка (смесь внешностей).

#ml #cv

Мобильное приложение для записи в парикмахерские по времени

Наверняка вы сталкивались с ситуацией, когда вам нужно постричься в определенное время, например из-за плотного графика, и вам приходится просматривать десятки сайтов парикмахерских, чтобы найти свободный слот для записи на это время. Данное приложение должно решать эту проблему сканируя сайты ближайших к вам парикмахерских и подбирая подходящие по времени.

#web

Стримбокс

Идея: создать дешевое устройство, которое умеет подключаться к звуковой карте по USB и позволяет воспроизводить HiRes музыку с флешки и локальной сети.

#робот

Перевод с русского на эмодзи

Методы машинного обучения позволяют извлекать смысл из разнородных данных — из картинок, текста, аудио, и даже эмодзи. Это позволяет делать смысловой поиск на разных данных — находить картинки по тексту, или текст, который описывает картинку. Идея этого проекта — на практике увидеть как работает смысловой поиск и сделать сервис-переводчик, который будет переводить фразы с русского языка на язык эмодзи, например "Я увидел тебя, и мое сердце поет" -> "👤 👀 👆 & 👇 ❤️ 🎤".

#ml #nlp

Распознавание рукописных рисунков

Нейронные сети позволяют распознавать достаточно сложные образы в компьютерном зрении. Интересно, что эти образы необязательно должны быть естественными — они могут быть нарисованы человеком. Несколько лет назад появился игра и датасет Quick, Draw содержащий рисунки людей для большого числа разных объектов. Идея — сделать систему, которая будет распознавать рисунки человека, нарисованные мышкой на экране.

#ml #cv

Предсказание рака кожи по фотографии родинок\пятен

Машинное обучение начинает активно использоваться в медицине, особенно в компьютерном зрении - в диагностике некоторых заболеваний по снимкам (фото\рентген\МРТ), нейросети способны соревноваться и превосходить профессиональных врачей по качеству предсказаний. Идея проекта - сделать аналогичную модель компьютерного зрения, определяющую наличие заболевания по фотографии пятен на коже.

#ml #cv

3D по фото

Мы научимся использовать несколько фото одного объекта с разных ракурсов для восстановлений 3D структуры объекта (информации о глубине и взаимном расположении его частей)

#ml #3d

Автолокализация фильмов

Мы обучим модель, которая будет автоматически озвучивать английские фильмы на русском по субтитрам (в продвинутой версии используя либо голоса исходных актеров, либо голосов их русских локализаторов).

#ml

Основы разработки OS

Изучим то, как работает процессор и базовые принципы устройства OC. Мы возьмем простую реализацию UNIX xv6. Соберем её и запустим на реальном железе. Научимся писать базовые программы для неё и вносить изменения в ядро.

#infra

Компилируем по принципу компота

Реализуем компилятор для игрушечного языка программирования ‘Kaleidoscope’. Пройдем основным по этапам разработки компилятора: Лексического анализатора Парсера и AST Кодогенерация LLVM IR

#algo #infra

Мигрировать goto.msk.ru на hugo

Сейчас goto.msk.ru использует Django, но практически весь контент статический. Для улучшения производительности лучше сгенерировать статические странички, например при помощи hugo

#web

Криптоустойчивая виртаульная файловая система поверх Яндекс.Диска

gocryptfs - умеет смонтировать папку, находу шифруя и расшифровывая файлы. Есть также клиенты под linux для разных облачных провайдеров. Задача - совместить эти компоненты так, чтобы получилось бесплатное расширение жесткого диска, не нарушающее приватность. Следующим шагом - сделать синхронизацию отложеной и добавить кэш, чтобы взаимодействие с этим "виртуальным жестким диском" было таким же быстрым, как и с реальным

#infra

Телеграм-инфраструктура для GoTo

Хочется иметь телеграм-бота и инфраструктуру вокруг для приема заявок через телеграм, рассылки информации об отборе на школу, управления чатами и поддержки консистентной базы данных об участниках. Смотрите как бывает тут: vas3k.ru/blog/nocode

#чатбот

Настройка маршрутизации для wireguard

VPN приходится использовать всё чаще и чаще, хочется, чтобы это стало удобнее. Например, можно поддержать split-tunnel - это когда разные приложения могут использовать или не использовать VPN в зависимости от настроек. Отличный шанс изучить устройство сетевых протоколов и реализацию сетевого стека в linux!

#infra


Яндекс.Метрика