Открытые данные: что можно узнать в интернете о каждом из нас

Volodymyr Lozovyi
3 min readApr 22, 2020

--

Утечки личной информации сотен миллионов пользователей Facebook, похищения данных банковских карт хакерами… эти и другие похожие новости мы регулярно видим в СМИ. После их прочтения становится страшно за безопасность наших данных, хотя, на самом деле, огромное кол-во информации о себе мы выкладываем на публичное обозрение сами. Наши посты в Facebook или фотографии в Instagram могут рассказать о нас очень многое, вот только вопрос: кому?

Ниже я расскажу какую информацию о нас можно найти в интернете, кем, как и для каких целей она может анализироваться.

КАКИЕ ДАННЫЕ О НАС СОДЕРЖАТ ОТКРЫТЫЕ ИСТОЧНИКИ

Четкого юридического определения какие данные относятся к открытым — нет. В моей трактовке — это данные, которые обладают следующими свойствами:

  • такие данные может увидеть любой желающий без использования каких-либо инструментов взлома или прав доступа;
  • эти данные ожидаемо находятся в общем доступе. Например, ваша аватарка в Facebook — открытые данные, а пин-коды от банковских карт на хакерском сайте (в открытом доступе) — нет.

Источники открытых данных: социальные сети, форумы, блоги, новостные ресурсы, маркетплейсы, сайты с отзывами, онлайн магазины, госреестры, мессенджеры и поисковики.

В этих источниках о нас можно много чего узнать:

  • ФИО, пол, возраст, дату рождения, место жительства, место учебы, место работы и должность, контактные данные;
  • информация о судимостях, штрафах, неуплаченных налогах, предпринимательской деятельности;
  • интересы, любимые рестораны, музыка, фильмы, места отдыха, профессиональные увлечения, читаемые СМИ и инфлюенсеры;
  • написанные посты и комментарии, список друзей, фотографии и многое другое.

КЕМ ИСПОЛЬЗУЮТСЯ ОТКРЫТЫЕ ДАННЫЕ

Огромным кол-вом людей и компаний. Вы устраиваетесь на работу — рекрутер обязательно детально изучит ваши профили в Facebook и LinkedIn. Вы красивая девушка с профилем в Tinder — поклонники исследуют ваш Instagram вдоль и поперек. Хотя активнее всего открытые данные используют маркетологи, политтехнологи и банковские специалисты, выдающие кредиты.

КАК ПРИМЕНЯЮТСЯ ОТКРЫТЫЕ ДАННЫЕ

Есть два основных подхода к анализу открытых данных: использование их в сыром и обработанном виде. Первый способ используют, например, рекрутеры, заходя на страницу соискателя, когда хотят быстро узнать базовую информацию о человеке. А вот маркетологи, политтехнологи и банковские специалисты анализируют уже обработанные данные — их интересует не один человек, а большое количество, которое невозможно проанализировать без использования современных технологий.

Работая со всеми тремя индустриями (маркетинг, госсектор/политика, финансы), моя компания сталкивается с одними и теми же нюансами обработки открытых данных в каждой из них.

В открытых данных содержится много шума (ошибок) и пропусков, соответственно, сначала такие данные необходимо очистить и дозаполнить. Делается это с помощью алгоритмов машинного обучения. Что в результате позволяет исправить неточности, заполнить пропущенные значения, а также построить аналитические модели: граф друзей, векторизация лица, кластеризация текстов и другие. Этот этап является основополагающим в обработке открытых данных — детальнее расскажу о нем в отдельных статьях.

Применяются открытые данные для решения многих задач. Примеры:

  • для маркетологов: глубокий анализ целевой аудитории и выбор оптимальных лидеров мнений. Эти задачи помогают решить лайки страниц и постов, которые мы делаем в соцсетях. Анализируя данные, можно выделить типажи клиентов, понять чем они живут, а также найти лидеров мнений, на которых подписан каждый второй из целевой аудитории бренда;
  • для политтехнологов: глубокий анализ целевой аудитории, изучение проблем и настроений в обществе, микротаргетирование. Для изучения проблем и настроений в обществе анализируются посты в соцсетях, а также наши комментарии под ними. С помощью алгоритмов машинного обучения посты группируются в темы (проблемы), а из комментариев под ними вытягивается смысл — это позволяет политику персонализировано общаться с каждым представителем электората на те темы, которые его волнуют в первую очередь;
  • для банковских специалистов: улучшение скоринговых моделей. Задача решается за счет анализа всей доступной информации из открытых источников — на склонность заемщика вернуть кредит влияют и его лайки, и друзья, и даже любимая музыка. Особую ценность такие данные несут для оценки людей, которые ранее не брали кредиты.

Хотите следить за моими статьями?
Подписывайтесь: TG (Big data future), FB, LI.

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Volodymyr Lozovyi
Volodymyr Lozovyi

Written by Volodymyr Lozovyi

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.

No responses yet

Write a response