Как big data и ML помогают в борьбе с коронавирусом в мире и как могут помочь в Украине
Китай, Южная Корея, Тайвань и многие другие страны мира успешно используют большие данные для борьбы с коронавирусом. На днях Украина также приобщилась к их числу — Министерство цифровой трансформации презентовало карту, которая показывает кол-во нарушителей самоизоляции в каждом населенном пункте. С помощью анализа больших данных мобильных операторов определяется сколько раз человек, который должен был придерживаться самоизоляции, менял свою гео-локацию относительно квартиры и с каким кол-вом людей контактировал.
Это первый и относительно простой шаг в использовании больших данных для борьбы с коронавирусом, но даже он несет значительную ценность. В других странах пошли намного дальше и разрабатывают куда более сложные и эффективные решения:
- контроль за соблюдением самоизоляции и предупреждение потенциальных заразившихся;
- поиск очагов и прогнозирование распространения вируса;
- прогнозирование медицинских потребностей;
- оперативная диагностика заболевания;
- поиск вакцины и способов лечения.
Последние две задачи являются технически крайне сложными и еще до конца не решены ни в одной стране, поэтому я остановлюсь на первых трех, которые уже принесли значительную пользу другим странам и потенциально могут быть реализованы в Украине в сжатые сроки.
- КОНТРОЛЬ ЗА СОБЛЮДЕНИЕМ САМОИЗОЛЯЦИИ И ПРЕДУПРЕЖДЕНИЕ ПОТЕНЦИАЛЬНЫХ ЗАРАЗИВШИХСЯ
Суть технологии. Самое популярное решение, которое реализуется во многих странах — использование данных мобильных операторов (гео-локации) для контроля за людьми, которые должны находиться на самоизоляции. Система позволяет отслеживать как меняются координаты человека относительно его квартиры во времени. В Украине и Европе данные используются в обезличенном и агрегированном виде для сбора статистики о соблюдении ограничений и оптимизации размещения медицинских ресурсов.
В Китае, Южной Корее, Тайване эту технологию существенно усовершенствовали — помимо данных мобильных операторов, используются данные камер с распознаванием лиц, финансовых организаций, ритейлеров, социальных сетей и мессенджеров, государственных и медицинских учреждений и других источников (данные могут отличаться для разных стран). С помощью всех этих данных отслеживают действия конкретного человека и с кем именно он контактировал. Список нарушителей передается ответственным государственным органам для дальнейших действий, а людей, которые контактировали с зараженным человеком, уведомляют о возможных рисках, ставят на учет и тестируют. Очевидно, такая система в разы эффективнее европейской, хотя она же ставит под угрозу приватность жителей этих стран. В выборе между соблюдением прав на защиту персональных данных и здоровьем своих граждан, развитые страны Азии выбирают второй вариант.
Как технология устроена. Мобильный оператор умеет определять гео-локацию зараженного человека с погрешностью 250 метров (это заявленная погрешность, реальная — немного больше). Есть и другие инструменты, которые умеют определять географическое положение человека: например, некоторые мессенджеры делают это с погрешностью менее 100 метров. Но все эти цифры намного больше 2–4 метров, на которые передается вирус, поэтому нельзя однозначно определить какие люди попали в зону риска из-за нахождения рядом с зараженным человеком. Соответственно, после определения потенциального круга людей, которые находились в радиусе 250 метров от зараженного человека, необходимо как-то понять, с кем именно мог общаться человек.
Мобильный оператор со своей стороны может посмотреть историю звонков и проверить есть ли среди потенциального круга людей те, кому зараженный человек часто звонил — вероятно они не просто находились в радиусе 250 метров, а общались между собой. Но здесь есть несколько нюансов. Во-первых, мобильный оператор может анализировать только телефоны из своей сети; во-вторых, люди до 30 лет практически не используют звонки для общения со своими друзьями. Именно поэтому развитые страны Азии добавляют информацию из других источников, например, социальных сетей — чтобы более точно оценить, с кем именно из потенциального круга людей контактировал зараженный человек.
Данные мобильного оператора сами по себе имеют ограниченный потенциал для решения данной задачи, но их совмещение с данными из других источников позволяет достигать значительных результатов: достаточно сравнить кол-во заболевших и умерших людей в Китае, Южной Корее и Тайване с одной стороны, и Европе и США — с другой.
Как применить в Украине. В данном направлении уже сделаны первые шаги и, чтобы повысить их эффективность, необходимо активизировать усилия компаний из разных отраслей: мобильные операторы, финансы, ритейл, медицинские и государственные учреждения и других. Возможный план действий:
- мобильный оператор может хорошо определять круг людей, которые находились в радиусе 250 метров от (потенциально) зараженного человека;
- с помощью данных ритейлеров и финансовых компаний можно уточнить в какой момент времени и где зараженный человек делал покупку и проверить кто еще делал покупку одновременно с ним;
- аналогично проверить данные служб такси и доставки — с кем из водителей или курьеров мог контактировать зараженный человек;
- изучить публично открытые профили зараженного человека в социальных сетях и проверить не находились ли его друзья в радиусе 250 метров от него (в таком случае, скорее всего, он с ними общался);
- аналогично на стороне мобильного оператора проверить не было ли в радиусе 250 метров людей, с которыми зараженный человек часто созванивается;
- совместить все эти данные на стороне государства. Для этого необходимо написать api по обмену данными между компаниями и государством (2 недели работы нескольких программистов со стороны государства и со стороны каждой компании);
- разработать на стороне государства простую модель, которая будет учитывать случаи явного контакта и выявлять людей с наибольшим риском заразиться. Такую модель можно разработать за 2 недели усилиями нескольких программистов, а дальше — добавлять более сложные зависимости и повышать ее точность;
- настроить систему оповещения людей, которые имели контакт с зараженным человеком, приглашать их пройти тест.
Такая система позволит однозначно определять людей, которые нарушали режим самоизоляции, а также тех, кто мог от них заразиться, для дальнейшего оповещения и прохождения теста. Система может использовать персональные данные, но сейчас такое время, что приходится делать выбор: между приватностью и здоровьем людей.
Китай строил свою систему не один год, и получить аналогичный результат в сжатые сроки не получится. Однако за месяц работы и при небольших расходах (до $100 тыс., при условии, что компании делятся данными бесплатно) значительно повысить эффективность текущих действий — вполне реально.
Следующие две задачи: поиск очагов и прогнозирование распространения вируса и прогнозирование медицинских потребностей детально описаны в продолжении статьи (перейти).