Как big data и ML помогают в борьбе с коронавирусом в мире и как могут помочь в Украине (продолжение)
Первая часть статьи находится по ссылке (перейти).
2. ПОИСК ОЧАГОВ И ПРОГНОЗИРОВАНИЕ РАСПРОСТРАНЕНИЯ ВИРУСА

Суть технологии. Данную задачу решают как правительства стран, так и частные компании, например, BlueDot. В результате стоится прогноз распространения заражения для каждого отдельного региона, в том числе выделение очагов, что позволяет лучше спланировать требуемые медицинские ресурсы и определить степень необходимых карантинных мер.
Прогноз может строиться на базе различных данных: текущем уровне заражения, перемещения людей внутри страны, СМИ, поисковых запросах, социальных сетей, мобильных операторов, финансовых организаций, ритейла и других. Это дает широкую вариативность в построении моделей.

Как технология устроена. Первым в мире публично заявил о коронавирусе BlueDot еще 31 декабря 2019 года. Компания использует NLP для анализа текстов СМИ, форумов, отчетов — выделяет ключевые слова (собственные названия, локации, симптомы итп.) и анализирует тренды, взаимосвязи между ними, чтобы определить нетипичные вспышки. BlueDot также дополняет результаты информацией об авиа перелетах (вероятно такие данные о перемещении людей проще всего получить) и с помощью них прогнозирует возможное распространении болезни.
Анализ текстов далеко не самый распространенный подход к решению данной задачи. Более типичный подход будет включать построение модели на базе исторических данных о распространении заболевания и перемещении людей (базовые данные для модели), также может дополняться данными мобильных операторов, финансовых организацией, ритейлеров и других источников для повышения точности модели.

Как применить в Украине. Решение данной задачи наиболее важно на ранних стадиях распространения заболевания в стране; после введения жесткого карантина, она теряет актуальность.
3. ПРОГНОЗИРОВАНИЕ МЕДИЦИНСКИХ ПОТРЕБНОСТЕЙ

Суть технологии. Популярное решение, которое реализуется во многих странах: его активно используют не только Китай, Южная Корея и Тайвань, но и страны Европы и США. В частности, в последних устанавливается система от Palantir, которая дает возможность анализировать разрозненные и слабо структурированные базы данных медицинских учреждений, объединять их с другими данными, например, мобильных операторов. С помощью этих данных прогнозируется спрос и потребление медицинских ресурсов (вентиляторы, кровати, маски, персонал) в каждом регионе и отдельно взятой больнице, и, соответственно, оптимизируется логистика.

Как технология устроена. Для прогнозирования спроса можно использовать различные данные, например, мобильных операторов. Достаточно понимать гео-локацию зараженных людей (с допустимой погрешностью), а также коэффициенты потребления масок, вентиляторов и других медицинских товаров на одного заболевшего, которые добавляются в модель. Конечно, модель можно дополнять различными данными и зависимостями, но даже описанный выше простой вариант будет работать с высокой точностью.
Задача оценки потребления медицинских товаров на первый взгляд довольно простая — достаточно своевременно вести учет товаров в базе данных. Из своего опыта могу сказать, что это не так. Базы данных заполняются разными людьми, что вызывает 4 вида ошибок: опечатки, сокращения, использование нетипичных синонимов/суржика, неправильное заполнение полей (запись кол-ва в поле названия либо запись нескольких товаров в одну строку). В результате, добиться точности 60–80% довольно просто, но поднять точность до 90–95% — крайне трудоемкая задача, которая может занимать месяцы, а иногда и годы.

Как применить в Украине. Для решения задачи прогнозирования спроса на медицинские ресурсы необходимо:
- идентифицировать (потенциально) зараженных людей — результат решения самой первой задачи (описана в первой части статьи);
- определить с помощью данных мобильных операторов их географическую локацию;
- использовать данные МЗУ и отдельных медицинских учреждений для оценки коэффициентов потребления масок, вентиляторов и других медицинских товаров на одного заболевшего.
Если предположить, что задача идентификации (потенциально) зараженных людей уже решена ранее, то единственным техническим моментом остается собрать данные о коэффициентах потребления медицинских товаров.
Оценку потребления медицинских товаров в сжатые сроки автоматизировать не удастся — стоит использовать текущие методы планирования поставок.