Альтернативные данные в кредитном скоринге — что работает для украинских МФО
Альтернативные данные и машинное обучение — именно они предоставляют наибольшие возможности для развития кредитного скоринга сегодня. Почему?
(1) возможности для улучшения классического скоринга исчерпались, все, что можно было — уже перепробовано;
(2) у многих людей нет кредитной истории — для их оценки необходимо использовать внешние данные;
(3) соцсети и смартфоны знают о нас настолько много, что способны предсказывать скоринг человека уже часто лучше кредитной истории.
Первые по темпам использования альтернативных данных — страны Юго-Восточной Азии. Tala, Branch, LenddoEFL, CredoLab и другие компании сумели найти эффективные способы их применения:
Если заемщик записывает контакты в тел. по ФИО — он с вероятностью в 16 раз выше вернет кредит, чем тот, кто записывает по никнеймам.
Кол-во друзей человека в Facebook, которые ранее не вернули кредит МФО — один из самых сильных предикторов скоринговой модели.
Украина в этом вопросе не отстает. Мы в Artellence путем большого кол-ва экспериментов определи какие данные соцсетей (одного из главных источников альтернативных данных) лучше всего работают для нашего рынка. Ниже делюсь некоторыми важными инсайтами.
[1] ЧТО НЕ РАБОТАЕТ
Первое, что хочется сделать, анализируя данные соцсетей — взять самые простые переменные (пол, возраст, кол-во лайков) и добавить их в скоринговую модель. Как показывает практика, большинство из таких переменных дают весьма незначительный прирост к существующим моделям: лучше всего — кол-во друзей, 0.02 Джини.
На этом этапе наша команда сделала для себя вывод, что простых решений, работая с данными соцсетей, искать не стоит — копать нужно долго и глубоко.
[2] ЧТО РАБОТАЕТ
Основная проблема данных из соцсетей заключается в их разреженности. Кол-во уникальных интересов (страниц) только в одной соцсети — миллионы, постов и комментариев — миллиарды, и добавить такое кол-во переменных в модель невозможно. Хотя именно эти данные наиболее полно описывают человека.
Мы нашли выход с помощью векторных пространств:
- процесс: на базе всех интересов (лайков страниц) одной соцсети строится 100-мерное пространство, в котором каждый человек представляется точкой со своими координатами. Алгоритмы машинного обучения делают “магию” и позволяют сформировать пространство таким образом, чтобы похожие по интересам люди лежали рядом (все ЗОЖники — в одной части пространства, а бодипозитивные — в другой);
- результат: миллионы интересов (лайков страниц) трансформировались в 100-мерный вектор, который уже легко добавить в скоринговую модель. Точность модели, построенной таким образом только на данных соцсетей — 0.2–0.5 Джини при хит-рейте в 50–70%. При чем для заемщиков без кредитной истории результаты часто лучше, чем для людей, у которых она есть.
Модель, построенная только на данных соцсетей, дает 0.2–0.5 Джини при хит-рейте в 50–70%.
Еще один интересный инсайт, который мы обнаружили — это усреднение информации по друзьям человека. Как оказалось, если построить одну модель по человеку, а вторую — как среднее по его друзьям, то такие модели будут иметь одинаковую точность. Что позволяет анализировать слабо заполненные профайлы.
Альтернативные данные уже сегодня приносят ощутимую пользу МФО, а учитывая, какими огромными темпами растут объемы информации в мире, их эффективность будет только увеличиваться. Не пропустите момент, когда альтернативные данные будут не просто давать прирост моделей, а станут определяющими в кредитном скоринге.