Социальный рейтинг в Китае: что правда, а что — вымысел. Технический взгляд

Volodymyr Lozovyi
5 min readApr 20, 2020

--

В СМИ* написано много статей на тему социального рейтинга, который сейчас поэтапно вводится в Китае. В большинстве статей его называют всемогущим “Большим братом”, который следит за каждым жителем, и проводят параллели с “Черным зеркалом”. Я же хочу несколько развеять атмосферу таинственности вокруг этой темы и с технической точки зрения разобрать, какая информация, из описанной в СМИ, реалистична, а какая — явное преувеличение.

Согласно СМИ, система социального рейтинга — централизованная база (в рамках страны или города), в которую стекается огромное кол-во данных о жителях Китая, а затем, с помощью машинного обучения, на базе всех этих данных высчитывается социальный рейтинг человека. Какие данные о человеке может учитывать рейтинг:

  • демография: образование, место жительства, место работы и частота его смены, семейный статус;
  • история перемещений и действий человека за счет распознавание лиц с камер (сейчас в Китае до 200 млн. шт.);
  • поведение в общественных местах: громкая музыка в общественном транспорте, убирание за собакой итп.;
  • своевременность оплаты кредитов, налогов, коммунальных и других платежей;
  • качество сортировки мусора, регулярность посещения пожилых родственников, читерство в онлайн играх и при сдаче экзаменов, соблюдение правил дорожного движения, донорство крови, благотворительность, волонтерство, сокрытие факта заражения коронавирусом итп.;
  • скоринги Baidu, Alibaba и Tencent (аналоги Google, Amazon, Facebook), которые учитывают различные факторы о поведении человека в своих экосистемах, например, историю онлайн покупок, действия в соцсетях, список друзей, историю финансовых операций.

А теперь посмотрим на это с технической точки зрения.

[1] ЭФФЕКТИВНОСТЬ СИСТЕМЫ РАСПОЗНАВАНИЯ ЛИЦ

Некоторые компании заявляют, что создают системы распознавания лиц с точностью до 99%. Их системы действительно хороши, но как основатель компании, которая также разрабатывает технологии распознавания лиц, могу сказать, что для достижения такой точности необходимо выполнение двух условий:

  • камера должна четко снять лицо человека. Она должна быть направлена прямо на лицо человека, а не снимать его сверху или сбоку; само же лицо не должно быть закрыто кепкой или другими помехами даже частично. Есть алгоритмы, которые позволяют выровнять немного повернутое лицо, но если угол поворота большой — распознать человека практически невозможно. Соответственно, только небольшое кол-во камер может заснять лицо человека в необходимом ракурсе;
  • после того, как камера засняла лицо человека в подходящем ракурсе, его необходимо найти в некоторой базе данных, где качественное фото человека связано с ФИО. Если сравнивать изображение, полученное от камеры, с фото в паспорте, то добиться высокой точности крайне сложно — фото в паспорте может быть 5-летней давности и заметно отличаться от текущего фото человека. Если сравнивать с аватаром в соцсетях, то точность распознавания реально довести до 90%. Но и это возможно только для половины людей, так как остальные либо не имеют фото на аватаре вообще, либо загрузили фото низкого качества. Также можно одновременно использовать данные из нескольких источников, но это позволит поднять точность и охват в незначительной мере.

Вывод. Камеры в Китае, по крайней мере на данный момент, не являются универсальным инструментом тотальной слежки за всеми его жителями, а лишь точечно распознают людей в некоторых местах (скорее всего — стратегически важных для города).

[2] ЧТО В КИТАЕ: МАССОВЫЙ РЕЙТИНГ ИЛИ ЧЕРНЫЙ СПИСОК

Все данные, которые я описывал в начале статьи, стоит разбить на 2 категории: те, которые можно использовать для составления массового рейтинга, и те, которые можно использовать для точечного черного или белого (в Китае его называют красным) списка.

Массовый рейтинг похож на желтый график — каждый человек получает много хороших или плохих оценок и в результате отдаляется от середины. А черный и белый списки будут похожи на синий график, где более 90% населения имеют среднее значение, и лишь единицы людей — высокий или низкий рейтинг.

Данные, которые используются для массового рейтинга, должны обладать важным свойством — их можно оценить для большой доли населения (иначе не получим желтый график). К таким данным относятся:

  • демография: образование, место жительства, место работы и частота его смены, семейный статус;
  • своевременность оплаты кредитов, налогов, коммунальных и других платежей;
  • скоринги Baidu, Alibaba и Tencent, которые учитывают различные факторы о поведении человека в своих экосистемах.

Большинство же данных, о которых пишут СМИ, могут использоваться только для составления черного или белого списка, но никак не массового рейтинга. Например, частые жалобы на громкую музыку в общественном транспорте получат менее 1% жителей. Единичные жалобы не будут иметь сильного влияния на рейтинг, так как могут быть случайностью.

Вывод. То, что вводится сейчас в Китае, является в первую очередь черными и белыми списками (в которые попадают только несколько процентов населения), а не социальным рейтингом (для всех). Такие списки есть в каждой стране: даже в Украине есть списки тех, кто не вернул вовремя кредит, не заплатил алименты или нарушил ПДД. Просто в Китае для удобства их свели в единую базу данных. И все.

[3] КАК СЧИТАЕТСЯ ФИНАЛЬНЫЙ РЕЙТИНГ И ГДЕ BIG DATA

СМИ представляют китайскую систему как централизованную базу, в которую стекаются все данные, которые затем обрабатываются с помощью машинного обучения для составления социального рейтинга человека.

Это не совсем так. В единую базу стекаются однородные данные: сколько раз человек нарушил ПДД, сколько раз выступил донором крови и какой скоринг (одно число) ему присвоил Tencent. Для объединения таких данных в финальный рейтинг человека машинное обучение не нужно — достаточно за каждое нарушение правила ПДД снимать 5 баллов, а за сдачу крови — добавлять 10. Со временем, когда наберется достаточная история, можно будет начать внедрять простые алгоритмы машинного обучения.

Продвинутые алгоритмы машинного обучения необходимы для обработки неоднородных данных, и сейчас используются только на одном этапе — построение скорингов Baidu, Alibaba, Tencent. Например, скоринг Tencent учитывает список друзей человека, его интересы, взаимодействие с постами и другие аналогичные параметры. Для человека совершенно не очевидно, как эта информация позволяет добавить или снять определенное количество баллов. Решение за нас в данном случае принимают алгоритмы машинного обучения.

Вывод. Использование машинного обучения (которое в СМИ обычно называют искусственным интеллектом) и больших данных при построении социального рейтинга — скорее преувеличение, чем реальность. На самом деле, эти технологии используются только при оценке одного из многих параметров рейтинга (который, при этом, сейчас не играет ключевую роль).

Хотите следить за моими статьями?
Подписывайтесь: TG (Big data future), FB, LI.

[*] В этой статье я не привожу список конкретных источников, так как на данную тему писали многие СМИ, а содержание большинства статей весьма однотипно — достаточно вбить в поиск Google: social credit China. Также стоить отметить, что есть ряд статей, в которых приводятся факты, говорящие о наоборот достаточно простом устройстве социального рейтинга.

--

--

Volodymyr Lozovyi

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.