COVID математически предсказанный

Приморский студент вошёл в десятку лучших на международном конкурсе по прогнозированию развития коронавируса

Сергей Сысойкин
19 мая 2020
Максим Шульга
Студент Дальневосточного федерального университета Максим Шульга вошёл в десятку лучших на международном соревновании по интеллектуальному анализу данных COVID-19 Data Challenge. Участники разрабатывали прогнозную модель факторов распространения коронавируса в разных странах. DV узнал у приморца об особенностях подсчёта и программы, а также выяснил, как её можно использовать.

В математическом прогнозировании соревновались 560 человек из разных стран. Исходными данными для программистов стали подтверждённые случаи заражения вирусом COVID-19 на основе исследования Центра системных исследований и инжиниринга при Университете Джона Хопкинса в Балтиморе. Соревнующиеся строили алгоритм для своих компьютерных моделей на следующие семь дней.

Машина прогнозировала увеличение количества заболевших и умерших от коронавируса нового типа, потом через специальную формулу производились расчёты и сравнивались с реальной картиной. В конце каждого периода все решения публиковались в рейтинговой таблице на сайте соревнования. В определённый момент Максим шёл четвёртым в общей таблице, но в итоге опустился на десятое место.

Нейросети для предсказаний

Участие в соревновании помогло Максиму Шульге решить сразу две задачи. Сейчас студент ДВФУ ведёт исследования, связанные с машинным обучением, в том числе и с прогнозированием. Тем более что тема коронавируса нового типа самая актуальная в мире. Чтобы построить модель, надо было воспользоваться методами машинного обучения, которые Максим изучал с первого курса.

«Программа основана на рекуррентной нейронной сети. Такая архитектура нейросети используется для исследования данных, представленных в виде последовательностей. Обычно рекуррентные нейросети используются в задачах, связанных с обработкой текста. Но так как они хорошо обрабатывают и последовательность, я решил применить их для прогнозирования данных по распространению заболевания. Все данные за последние три месяца можно разбить на небольшие промежутки по семь дней и на них обучать модель.

Для того чтобы сделать прогноз на следующий день, я беру данные за последнюю неделю и на основании них делаю предсказание, добавляя его ко всем данным. И с полученными обновлёнными результатами делаю предсказание на два дня вперёд от текущего дня и так далее", — рассказывает Максим.

Чтобы попасть в число победителей соревнования, необходимо было, чтобы программа допустила как можно меньше ошибок в прогнозе. Например, предсказали восемь новых случаев с подтверждённым COVID-19 за день, а в реальности выявили десять заболевших. Из реального результата вычитается результат смоделированный, а разница возводится в квадрат. По каждой стране высчитывается такая ошибка и берётся среднее от неё. Такая средняя ошибка называется средней квадратичной ошибкой и характеризует, насколько близко было предсказание к реальным цифрам.

Универсальный алгоритм подсчёта

Максим работал на языке программирования Python библиотеки TensorFlow. Она очень популярна и специально предназначена для нейросетей. Это универсальный алгоритм, его можно применить в других задачах, где есть последовательность данных и где нужно вывести следующее значение в последовательности.

По словам Максима, человек может пропустить последовательность, потому что данных очень много и обработать огромный массив информации очень сложно. А в нём могут быть определённые признаки, на основании которых модель предскажет резкое изменение поведения прогноза в дальнейшем.

Примерный отрезок, на который модель может дать адекватный прогноз, — неделя. Благодаря программе можно обнаружить внезапный рост числа заболевших на этом отрезке и принять определённые меры в здравоохранении.

Всё зависит от результатов, а значит, необходимо больше людей тестировать на COVID-19. Но программу уже можно использовать в «боевых условиях» и рассчитывать прогнозы", — рассказывает участник соревнования. Чем больше исходных данных — тем точнее результат.

К примеру, программа предсказала общее количество заболевших в Приморском крае по состоянию на 25 апреля — 261 человек, а в реальности эта цифра составила 254. В Якутии на этот же день программа спрогнозировала 157 заболевших, а реальные цифры — 141 человек. На меньших цифрах возможны уже большие отклонения в прогнозах.

Будущее прогнозиста

Максим Шульга учится на третьем курсе по направлению «Математические методы защиты информации» кафедры информационной безопасности. Через 2,5 года он станет специалистом в области защиты информации. Как отмечается на сайте университета, ДВФУ является центром IT-образования Дальнего Востока. Школа естественных наук предлагает программы бакалавриата по направлениям «Информационная безопасность» и специалитета «Компьютерная безопасность». В Школе цифровой экономики ДВФУ готовят магистров по IT-направлениям с акцентом на прикладные исследования.

Как рассказывает директор ШЦЭ ДВФУ Илья Мирин, школа специализируется в том числе на работе с искусственным интеллектом. С прикладными проектами студенты вместе с преподавателями работают в специальной лаборатории, основанной два года назад при поддержке Сбербанка. В частности, в школе уже делали систему узнавания людей по лицам, проекты по распознаванию речи и текста, студенты участвовали в большом конкурсе, где искусственный интеллект писал ЕГЭ по русскому языку, набрав 57 баллов.

«Задачи, которые мы решаем, — мирового уровня. Например, генерация текста на русском языке очень сложная и пока не решена, но мы показываем конкурентоспособные результаты даже со взрослыми. Например, в прошлом году, когда мы участвовали в подобном конкурсе, то среди победителей были состоявшиеся специалисты из Yandex. Технология машинного обучения искусственного интеллекта сейчас одна из самых быстро развивающихся отраслей во всём мире. И если Максим, уже показавший хорошие результаты в конкурсе, закрепится в ней, то его ждут очень хорошие карьерные перспективы», — отмечает Мирин.

На Дальнем Востоке система работает

Как отмечает сам Максим, успех в международном конкурсе обязательно пригодится в дальнейшем профессиональном продвижении. А сама программа способна и дальше работать в условиях эпидемий, обучаясь буквально с первых дней.

Как добавляет Илья Мирин, ещё восемь представителей университета в ходе конкурса показали хорошие результаты в итоговом зачёте, поэтому знания, получаемые в ШЦЭ, можно признать конкурентоспособными даже по мировым меркам.

«Раньше мы не занимались прогнозированием биологических процессов. Но мы сделали выводы, как вообще можно такие задачи решать, накопили определённые знания, ноу-хау. Наши студенты постоянно участвуют в исследовательско-прикладных проектах, поэтому построенная нами система работает», — уверен Мирин.

Рекомендуемые материалы
Война в 3D-землянке
В амурской школе напечатали трёхмерный учебно-игровой макет военных действий Советско-японской войны 1945 года
«Главное — всегда быть полезной»
Многодетная мать из Бурятии руководит общественными организациями, помогает тяжелобольным детям, семьям и пожилым
«Держите самолёт, пока колёса подпрыгивать не начнут…»
Дальневосточные пограничники о службе на самой суровой границе России