Альтернативные данные в кредитном скоринге — что работает для украинских МФО

Альтернативные данные и машинное обучение — именно они предоставляют наибольшие возможности для развития кредитного скоринга сегодня. Почему?

(1) возможности для улучшения классического скоринга исчерпались, все, что можно было — уже перепробовано;
(2) у многих людей нет кредитной истории — для их оценки необходимо использовать внешние данные;
(3) соцсети и смартфоны знают о нас настолько много, что способны предсказывать скоринг человека уже часто лучше кредитной истории.

Первые по темпам использования альтернативных данных — страны Юго-Восточной Азии. Tala, Branch, LenddoEFL, CredoLab и другие компании сумели найти эффективные способы их применения:

Если заемщик записывает контакты в тел. по ФИО — он с вероятностью в 16 раз выше вернет кредит, чем тот, кто записывает по никнеймам.

Кол-во друзей человека в Facebook, которые ранее не вернули кредит МФО — один из самых сильных предикторов скоринговой модели.

Украина в этом вопросе не отстает. Мы в Artellence путем большого кол-ва экспериментов определи какие данные соцсетей (одного из главных источников альтернативных данных) лучше всего работают для нашего рынка. Ниже делюсь некоторыми важными инсайтами.

[1] ЧТО НЕ РАБОТАЕТ

Первое, что хочется сделать, анализируя данные соцсетей — взять самые простые переменные (пол, возраст, кол-во лайков) и добавить их в скоринговую модель. Как показывает практика, большинство из таких переменных дают весьма незначительный прирост к существующим моделям: лучше всего — кол-во друзей, 0.02 Джини.

На этом этапе наша команда сделала для себя вывод, что простых решений, работая с данными соцсетей, искать не стоит — копать нужно долго и глубоко.

[2] ЧТО РАБОТАЕТ

Основная проблема данных из соцсетей заключается в их разреженности. Кол-во уникальных интересов (страниц) только в одной соцсети — миллионы, постов и комментариев — миллиарды, и добавить такое кол-во переменных в модель невозможно. Хотя именно эти данные наиболее полно описывают человека.

Мы нашли выход с помощью векторных пространств:

Модель, построенная только на данных соцсетей, дает 0.2–0.5 Джини при хит-рейте в 50–70%.

Еще один интересный инсайт, который мы обнаружили — это усреднение информации по друзьям человека. Как оказалось, если построить одну модель по человеку, а вторую — как среднее по его друзьям, то такие модели будут иметь одинаковую точность. Что позволяет анализировать слабо заполненные профайлы.

Альтернативные данные уже сегодня приносят ощутимую пользу МФО, а учитывая, какими огромными темпами растут объемы информации в мире, их эффективность будет только увеличиваться. Не пропустите момент, когда альтернативные данные будут не просто давать прирост моделей, а станут определяющими в кредитном скоринге.

Хотите следить за моими статьями?
Подписывайтесь: TG (Big data future), FB, LI.

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.

Inventor, founder @Artellence. Top topics: artificial intelligence, big data, open data, fintech, public sector, politics, technologies of the future.