Как big data и ML помогают в борьбе с коронавирусом в мире и как могут помочь в Украине

Volodymyr Lozovyi
5 min readApr 13, 2020

--

Китай, Южная Корея, Тайвань и многие другие страны мира успешно используют большие данные для борьбы с коронавирусом. На днях Украина также приобщилась к их числу — Министерство цифровой трансформации презентовало карту, которая показывает кол-во нарушителей самоизоляции в каждом населенном пункте. С помощью анализа больших данных мобильных операторов определяется сколько раз человек, который должен был придерживаться самоизоляции, менял свою гео-локацию относительно квартиры и с каким кол-вом людей контактировал.

Это первый и относительно простой шаг в использовании больших данных для борьбы с коронавирусом, но даже он несет значительную ценность. В других странах пошли намного дальше и разрабатывают куда более сложные и эффективные решения:

  • контроль за соблюдением самоизоляции и предупреждение потенциальных заразившихся;
  • поиск очагов и прогнозирование распространения вируса;
  • прогнозирование медицинских потребностей;
  • оперативная диагностика заболевания;
  • поиск вакцины и способов лечения.

Последние две задачи являются технически крайне сложными и еще до конца не решены ни в одной стране, поэтому я остановлюсь на первых трех, которые уже принесли значительную пользу другим странам и потенциально могут быть реализованы в Украине в сжатые сроки.

  1. КОНТРОЛЬ ЗА СОБЛЮДЕНИЕМ САМОИЗОЛЯЦИИ И ПРЕДУПРЕЖДЕНИЕ ПОТЕНЦИАЛЬНЫХ ЗАРАЗИВШИХСЯ

Суть технологии. Самое популярное решение, которое реализуется во многих странах — использование данных мобильных операторов (гео-локации) для контроля за людьми, которые должны находиться на самоизоляции. Система позволяет отслеживать как меняются координаты человека относительно его квартиры во времени. В Украине и Европе данные используются в обезличенном и агрегированном виде для сбора статистики о соблюдении ограничений и оптимизации размещения медицинских ресурсов.

В Китае, Южной Корее, Тайване эту технологию существенно усовершенствовали — помимо данных мобильных операторов, используются данные камер с распознаванием лиц, финансовых организаций, ритейлеров, социальных сетей и мессенджеров, государственных и медицинских учреждений и других источников (данные могут отличаться для разных стран). С помощью всех этих данных отслеживают действия конкретного человека и с кем именно он контактировал. Список нарушителей передается ответственным государственным органам для дальнейших действий, а людей, которые контактировали с зараженным человеком, уведомляют о возможных рисках, ставят на учет и тестируют. Очевидно, такая система в разы эффективнее европейской, хотя она же ставит под угрозу приватность жителей этих стран. В выборе между соблюдением прав на защиту персональных данных и здоровьем своих граждан, развитые страны Азии выбирают второй вариант.

Как технология устроена. Мобильный оператор умеет определять гео-локацию зараженного человека с погрешностью 250 метров (это заявленная погрешность, реальная — немного больше). Есть и другие инструменты, которые умеют определять географическое положение человека: например, некоторые мессенджеры делают это с погрешностью менее 100 метров. Но все эти цифры намного больше 2–4 метров, на которые передается вирус, поэтому нельзя однозначно определить какие люди попали в зону риска из-за нахождения рядом с зараженным человеком. Соответственно, после определения потенциального круга людей, которые находились в радиусе 250 метров от зараженного человека, необходимо как-то понять, с кем именно мог общаться человек.

Мобильный оператор со своей стороны может посмотреть историю звонков и проверить есть ли среди потенциального круга людей те, кому зараженный человек часто звонил — вероятно они не просто находились в радиусе 250 метров, а общались между собой. Но здесь есть несколько нюансов. Во-первых, мобильный оператор может анализировать только телефоны из своей сети; во-вторых, люди до 30 лет практически не используют звонки для общения со своими друзьями. Именно поэтому развитые страны Азии добавляют информацию из других источников, например, социальных сетей — чтобы более точно оценить, с кем именно из потенциального круга людей контактировал зараженный человек.

Данные мобильного оператора сами по себе имеют ограниченный потенциал для решения данной задачи, но их совмещение с данными из других источников позволяет достигать значительных результатов: достаточно сравнить кол-во заболевших и умерших людей в Китае, Южной Корее и Тайване с одной стороны, и Европе и США — с другой.

Как применить в Украине. В данном направлении уже сделаны первые шаги и, чтобы повысить их эффективность, необходимо активизировать усилия компаний из разных отраслей: мобильные операторы, финансы, ритейл, медицинские и государственные учреждения и других. Возможный план действий:

  • мобильный оператор может хорошо определять круг людей, которые находились в радиусе 250 метров от (потенциально) зараженного человека;
  • с помощью данных ритейлеров и финансовых компаний можно уточнить в какой момент времени и где зараженный человек делал покупку и проверить кто еще делал покупку одновременно с ним;
  • аналогично проверить данные служб такси и доставки — с кем из водителей или курьеров мог контактировать зараженный человек;
  • изучить публично открытые профили зараженного человека в социальных сетях и проверить не находились ли его друзья в радиусе 250 метров от него (в таком случае, скорее всего, он с ними общался);
  • аналогично на стороне мобильного оператора проверить не было ли в радиусе 250 метров людей, с которыми зараженный человек часто созванивается;
  • совместить все эти данные на стороне государства. Для этого необходимо написать api по обмену данными между компаниями и государством (2 недели работы нескольких программистов со стороны государства и со стороны каждой компании);
  • разработать на стороне государства простую модель, которая будет учитывать случаи явного контакта и выявлять людей с наибольшим риском заразиться. Такую модель можно разработать за 2 недели усилиями нескольких программистов, а дальше — добавлять более сложные зависимости и повышать ее точность;
  • настроить систему оповещения людей, которые имели контакт с зараженным человеком, приглашать их пройти тест.

Такая система позволит однозначно определять людей, которые нарушали режим самоизоляции, а также тех, кто мог от них заразиться, для дальнейшего оповещения и прохождения теста. Система может использовать персональные данные, но сейчас такое время, что приходится делать выбор: между приватностью и здоровьем людей.

Китай строил свою систему не один год, и получить аналогичный результат в сжатые сроки не получится. Однако за месяц работы и при небольших расходах (до $100 тыс., при условии, что компании делятся данными бесплатно) значительно повысить эффективность текущих действий — вполне реально.

Следующие две задачи: поиск очагов и прогнозирование распространения вируса и прогнозирование медицинских потребностей детально описаны в продолжении статьи (перейти).

Хотите следить за моими статьями?
Подписывайтесь: TG (Big data future), FB, LI.

--

--

Volodymyr Lozovyi
Volodymyr Lozovyi

Written by Volodymyr Lozovyi

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.

No responses yet