Открытые данные: что можно узнать в интернете о каждом из нас
Утечки личной информации сотен миллионов пользователей Facebook, похищения данных банковских карт хакерами… эти и другие похожие новости мы регулярно видим в СМИ. После их прочтения становится страшно за безопасность наших данных, хотя, на самом деле, огромное кол-во информации о себе мы выкладываем на публичное обозрение сами. Наши посты в Facebook или фотографии в Instagram могут рассказать о нас очень многое, вот только вопрос: кому?
Ниже я расскажу какую информацию о нас можно найти в интернете, кем, как и для каких целей она может анализироваться.

КАКИЕ ДАННЫЕ О НАС СОДЕРЖАТ ОТКРЫТЫЕ ИСТОЧНИКИ
Четкого юридического определения какие данные относятся к открытым — нет. В моей трактовке — это данные, которые обладают следующими свойствами:
- такие данные может увидеть любой желающий без использования каких-либо инструментов взлома или прав доступа;
- эти данные ожидаемо находятся в общем доступе. Например, ваша аватарка в Facebook — открытые данные, а пин-коды от банковских карт на хакерском сайте (в открытом доступе) — нет.
Источники открытых данных: социальные сети, форумы, блоги, новостные ресурсы, маркетплейсы, сайты с отзывами, онлайн магазины, госреестры, мессенджеры и поисковики.
В этих источниках о нас можно много чего узнать:
- ФИО, пол, возраст, дату рождения, место жительства, место учебы, место работы и должность, контактные данные;
- информация о судимостях, штрафах, неуплаченных налогах, предпринимательской деятельности;
- интересы, любимые рестораны, музыка, фильмы, места отдыха, профессиональные увлечения, читаемые СМИ и инфлюенсеры;
- написанные посты и комментарии, список друзей, фотографии и многое другое.
КЕМ ИСПОЛЬЗУЮТСЯ ОТКРЫТЫЕ ДАННЫЕ
Огромным кол-вом людей и компаний. Вы устраиваетесь на работу — рекрутер обязательно детально изучит ваши профили в Facebook и LinkedIn. Вы красивая девушка с профилем в Tinder — поклонники исследуют ваш Instagram вдоль и поперек. Хотя активнее всего открытые данные используют маркетологи, политтехнологи и банковские специалисты, выдающие кредиты.
КАК ПРИМЕНЯЮТСЯ ОТКРЫТЫЕ ДАННЫЕ
Есть два основных подхода к анализу открытых данных: использование их в сыром и обработанном виде. Первый способ используют, например, рекрутеры, заходя на страницу соискателя, когда хотят быстро узнать базовую информацию о человеке. А вот маркетологи, политтехнологи и банковские специалисты анализируют уже обработанные данные — их интересует не один человек, а большое количество, которое невозможно проанализировать без использования современных технологий.
Работая со всеми тремя индустриями (маркетинг, госсектор/политика, финансы), моя компания сталкивается с одними и теми же нюансами обработки открытых данных в каждой из них.
В открытых данных содержится много шума (ошибок) и пропусков, соответственно, сначала такие данные необходимо очистить и дозаполнить. Делается это с помощью алгоритмов машинного обучения. Что в результате позволяет исправить неточности, заполнить пропущенные значения, а также построить аналитические модели: граф друзей, векторизация лица, кластеризация текстов и другие. Этот этап является основополагающим в обработке открытых данных — детальнее расскажу о нем в отдельных статьях.
Применяются открытые данные для решения многих задач. Примеры:
- для маркетологов: глубокий анализ целевой аудитории и выбор оптимальных лидеров мнений. Эти задачи помогают решить лайки страниц и постов, которые мы делаем в соцсетях. Анализируя данные, можно выделить типажи клиентов, понять чем они живут, а также найти лидеров мнений, на которых подписан каждый второй из целевой аудитории бренда;
- для политтехнологов: глубокий анализ целевой аудитории, изучение проблем и настроений в обществе, микротаргетирование. Для изучения проблем и настроений в обществе анализируются посты в соцсетях, а также наши комментарии под ними. С помощью алгоритмов машинного обучения посты группируются в темы (проблемы), а из комментариев под ними вытягивается смысл — это позволяет политику персонализировано общаться с каждым представителем электората на те темы, которые его волнуют в первую очередь;
- для банковских специалистов: улучшение скоринговых моделей. Задача решается за счет анализа всей доступной информации из открытых источников — на склонность заемщика вернуть кредит влияют и его лайки, и друзья, и даже любимая музыка. Особую ценность такие данные несут для оценки людей, которые ранее не брали кредиты.