История о том, как мы создавали кредитный скоринг для Вьетнама на основе альтернативных данных
Первую версию кредитного скоринга на основе данных соцсетей и других альтернативных источников для Украины мы построили за 2 месяца. Начиная разрабатывать аналогичный продукт для Вьетнама, мы рассчитывали все закончить также быстро… однако по факту, наша история растянулась почти на 2 года, пройдя через 3 стадии: недоумение, боль и путь к успеху. Начнем по порядку.
[1] НЕДОУМЕНИЕ
Строить кредитный скоринг на альтернативных данных — не просто, однако примерный алгоритм как это делать мы понимали. Вот только перед тем, как скорить человека — его сначала нужно найти. И здесь нас поджидал ряд… кхм… неожиданностей.
Например, 38.4% жителей Вьетнама имеют фамилию Нгуен. Искать человека с такой фамилией в соцсетях — одно удовольствие (население Вьетнама почти 100 млн. человек). С именами — проще, их распределение по частоте больше похоже на наше. Однако и здесь нас ждали подвохи. Если у нас совпадение женского и мужского имени скорее редкость, то во Вьетнаме — обычное дело. А еще вьетнамцы часто имеют второе имя на американский манер, которое и записывают в соцсетях. Но что нас поразило куда больше — их любовь “приукрашать” свои имена, в случайном порядке удваивая в них некоторые буквы, или отбрасывая те, которые им не очень нравятся.
Если вы думаете что на этом все — то нет! У них еще есть средние имена, которых может быть несколько, бывают они мужские и женские и используются произвольным образом: в одной соцсети у человека может быть одно среднее имя, а в другой — другое. Пишутся имя, среднее имя и фамилия в случайном порядке, а еще… некоторые имена и фамилии пишутся одинаково! И тут мы зависли надолго…
[2] БОЛЬ
Делать нечего — начали привлекать на помощь носителей языка, шаг за шагом разбираться в особенностях вьетнамских имен и фамилий, писать алгоритмы их нормализации и нечеткого сравнения. Закончив с именами, перешли к городам, которые мы оценивали по локациям друзей человека, и строили вероятностные модели, учитывающие расстояние между искомым городом и тем, что указан в соцсетях. Последним штрихом стали фотографии. Здесь, кстати, все получилось куда проще, чем мы прогнозировали. Это для нас сложно различать вьетнамцев на фото, а вот алгоритмы быстро разложили задачу по полочкам.
В результате наших долгих приключений, в первой версии продукта нам удалось добиться точности нахождения человека в соцсетях 85–90% при среднем хит-рейте в 75–80%, что очень даже достойный результат!
Так почему же эту стадию я называл “боль”? Болью она была для наших серверов. Например, чтобы смэтчить аккаунты людей в двух соцсетях нужно сделать примерно 100 млн. на 100 млн. сравнений — это уже не мало, а теперь добавьте сюда всю вариативностью вьетнамских имен… Если сказать, что наши сервера были в шоке от такого кол-во операций — это ничего не сказать.
[3] ПУТЬ К УСПЕХУ
Научившись находить человека в соцсетях, мы вышли на финишную прямую в разработке продукта. Построить кредитный скоринг на этом этапе уже было делом техники, с которым мы справились довольно оперативно. Несколько интересных выводов:
- если заемщик пишет полное имя в соцсетях — вероятность того, что он вернет кредит выше, чем если человек указывает сокращенное имя или никнейм;
- дата регистрации и кол-во действий— играют роль: выгоднее выдавать кредиты давно зарегистрированым пользователям с высокой активностью;
- и вывод, о котором пишу уже не первый раз: друзья — это зеркало человека. Чем более надежные друзья — тем выше кредитный рейтинг и самого заемщика.
Точность скоринговых моделей на данный момент уже составляет 0.2–0.35 Джини и это только в первой версии продукта. Уже в скором времени мы значительно расширим полноту наших данных за счет подключения дополнительных источников, что неприменно повысит и пользу, которую они приносят при оценке кредитоспособности.
Путь был не простой, но мы это сделали!