Big data в политике. Каких технологий стоит ожидать на ближайших выборах в Украине?

Volodymyr Lozovyi
5 min readMay 21, 2020

Осенью этого года в Украине и Америке почти одновременно пройдут выборы: в Америке будут выбирать президента, в Украине — мэров и местные советы. Работа по подготовке к избирательной кампании уже кипит: где-то очень активно и инновационно, а где-то еще будут раздавать буклеты и ставить палатки.

Начнем с Америки. Об истории использования больших данных на прошлых выборах президента США наверное слышали все. На предстоящих выборах большие данные будут использоваться не менее активно. Демократов скорее всего будет представлять Hawkfish, только на запуск которой было потрачено более $25 млн., а стоимость ее услуг за полгода составила около $65 млн. У американских политтехнологов не возникает ни малейших сомнений в необходимости использования больших данных, а значит появление новых сильных компаний, которые умеют анализировать большие данные с помощью алгоритмов машинного обучения, неизбежно. Кто будет представлять республиканцев — думаю также скоро узнаем.

Будут ли большие данные использоваться на выборах в Украине? Каким образом и для каких задач? Разберем ниже.

Думаю, большинство украинских политтехнологов большие данные на предстоящих выборах использовать не будут по нескольким причинам:

  • необходимо осваивать и применять новые, не самые простые технологии;
  • не перед каждым политтехнологом стоит задача победить, а для достижения среднего результата достаточно средних подходов;
  • трудно оценить эффективность классических подходов (билборды, опросы, палатки), что снимает с политтехнолога дополнительную ответственность за результат.

Тем не менее, в Украине есть политтехнологи, которые готовы внедрять современные технологии для того, чтобы добиться максимального результата. Большие данные в политических целях могут применяться в двух основных направлениях:

  • построение стратегии (рисерч) — большие данные помогают лучше понять целевую аудиторию, боли избирателей, замерить рейтинги и реакцию на различные события;
  • внедрение стратегии (реклама) — с помощью больших данных анализируется каждый избиратель, формируются небольшие группы максимально похожих между собой людей, для каждой группы создаются персональные месседжи и запускается реклама / привлекаются микро-лидеры мнений.

А теперь детальнее о применении больших данных для каждой из задач.

[1] ИЗУЧЕНИЕ ПРОБЛЕМ ГОРОДА

В соцсетях пользователями создается огромное кол-во контента — только в укр. сегменте Facebook около 5 млн. постов и 15 млн. комментариев ежедневно. Большой процент из них — на социальные и политические темы. Анализируя такие комментарии с помощью машинного обучения, можно из каждого достать его суть — о какой проблеме писал человек и как он к ней относится (например, в районной поликлинике нет достаточного кол-ва вакцин). А затем автоматически сгруппировать схожие проблемы и построить рейтинг их важности для города.

Решая похожую задачу для одного крупного города в Западной Украине, мы столкнулись с интересной особенностью — проблемы, которые выделились в результате анализа социальных сетей, сильно отличались от результатов проведенного соцопроса. Ошибки в замерах не было ни с одной стороны — дело в том, что в соцопросе люди указывают общепринятые проблемы, которые первыми приходят на ум (дороги, ЖКХ), а в соцсетях пишут о том, что их больше всего волнует именно сегодня.

Когда Sony Walkman (первый популярнейший музыкальный кассетный проигрыватель) выбирали цвет устройства, собрали фокус-группу молодежи. Во время сессии назвали много экзотических свойств. Но на выходе поставили корзину с плеерами разных цветов и разрешили участникам взять с собой по одной штуке. Больше всего взяли черных. // Люди врут. Следите за тем, что они делают, а не что отвечают.

[2] ОТНОШЕНИЕ К МЭРУ, РЕЙТИНГ

Анализ постов и комментариев помогает не только изучать проблемы города, а также оценивать отношение к мэру (кандидату), причины такого отношения, его рейтинг. Для каждого комментария, в котором речь шла о мэре, оценивается его тональность (+/0/-) и выделяется основная причина, почему человек доволен либо не доволен мэром. Далее схожие причины объединяются и создается рейтинг, который описывает положительные и отрицательные факторы для мэра.

Важно отметить, что в большинстве комментариев про мэра, его фамилия или позиция явно не встречаются. Машинное обучение решает эту задачу и помогает классифицировать каждый комментарий: идет ли в нем речь о нужном нам человеке или нет.

Анализируя комментарии о мэре одного города-миллионника, мы насчитали около 40 тыс. осмысленных упоминаний за 2019 год. Такое кол-во комментариев позволяет выделить несколько десятков статистически значимых положительных и отрицательных факторов для мэра: от общих и достаточно очевидных, до отношения к мэру в рамках конкретного события. Что интересно, популярные на первый взгляд факторы (вор, бандит, честный, хозяйственник) в упоминаниях конечно встречаются, но являются далеко не самыми цепляющими для жителей города.

[3] ОЦЕНКА ДЕЙСТВИЙ БОТОВ

Когда мы предлагаем анализировать комментарии в социальных сетях, политтехнологи часто возражают — мол их ведь одни боты пишут. Во многом политттехнологи здесь правы — наше совместное исследование с Vox Ukraine выявило, что примерно 30% всех комментариев на социальные и политические темы в украинском сегменте Facebook написаны ботами. Из этого факта следуют два вывода:

  • перед тем, как изучать проблемы города или отношение к мэру, анализируя комментарии в соцсетях, сначала необходимо отсеять всех ботов. С такой задачей человек справиться не в силах — комментариев слишком много (миллионы), да и боты уже научились хорошо маскироваться под людей. А вот машинное обучение задачу решает на ура;
  • можно узнать о ком и что именно пишут боты, изучить как они проводят свои атаки. Например, когда о мэре происходит всплеск негатива — важно разграничить: негатив следует от людей, и мэру стоит принимать определенные действия, либо это атака ботов, которую организовал конкурент.

[4] ПЕРСОНАЛИЗАЦИЯ И МИКРОТАРГЕТИНГ

Разберем на примере Hawkfish. На этапе праймериз компания ежедневно тратила на рекламу в Facebook более $1 млн. При этом кол-во уникальных запускаемых объявлений довольно велико: так, например, за неделю с 12 по 18 февраля было запущено 47 тыс. уникальных объявлений. Среднее кол-во показов одного рекламного объявления — 12 тыс. раз.

Персонализация — достаточно кропотливый процесс, но результат того стоит: каждый избиратель видит тот месседж о кандидате, который его больше всего зацепит.

Современные технологии анализа больших данных позволяют кардинально повлиять на ход избирательной кампании. Учитывая высокую конкурентную среду в Америке, персонализация и поиск инсайтов с помощью анализа больших данных — уже must have и именно поэтому к предвыборным кампаниям начинают готовиться заблаговременно и инвестировать сотни миллионов долларов в данное направление.

Украина в данном вопросе значительно отстает, но, тем не менее, хотя и ближе к самим выборам, и для решения чаще всего тактических задач, начинают использовать современные методы анализа, а не по старинке принимать решения исключительно на основе опросов и фокус-групп.

Хотите следить за моими статьями?
Подписывайтесь: TG (Big data future), FB, LI.

--

--

Volodymyr Lozovyi

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.