Меня зовут Дмитрий Яшин, я Lead Data Scientist в JetLend. В этом материале я расскажу, что такое JetLend, как устроена платформа и выстроен алгоритм работы с данными, а также как ML помогает нам аргументированно оценивать заемщиков и снижать риски для инвесторов.
Модели кредитного скоринга (скоринговые карты) – это узкоспециализированные модели. Вся процедура построения и валидации разрабатывалась для самостоятельного использования в банковской сфере, учитывая требования интерпретации результатов и прогнозируемости работы. Скоринг-карту достаточно легко применить к любой задаче классификации, но чаще всего её используют именно банки, мфо и прочие финансовые организации, у которых бизнес базируется на расчетах Pd заёмщика.
JetLend — инвестиционная платформа в сфере краудлендинга. Краудлендинг — метод прямого онлайн-финансирования бизнеса физическими лицами и профессиональными инвесторами. JetLend позволяет заемщикам без долгих банковских процедур получать деньги на развитие своих проектов, а инвесторам — доходность.
Дефолтность не превышает 1,35%. Одна из причин — алгоритм работы платформы с проверкой потенциальных заемщиков как андеррайтерами проекта (специалистами, осуществляющими независимую экспертизу), так и скоринговой системой на основе ML-модели (Machine Learning).
Упрощенно алгоритм работы платформы выглядит следующим образом:
Схема максимально прозрачная:
В алгоритме работы есть ключевой этап, который остается вне поля зрения как для инвесторов, так и для заемщиков — скоринг заемщика по множеству критериев и присвоение ему внутреннего рейтинга.
Скоринг ― это исследование характеристик клиента по множеству параметров, по результатам которого каждому потенциальному заемщику присваивается рейтинг.
В нашей системе 18 рейтингов:
Для определения рейтинга предусмотрен двухуровневый скоринг:
Отдельно можно выделить нулевой этап, на котором заемщик проверяется на наличие стоп-факторов, к которым относятся, например, большие задолженности по кредитам, наличие аффилированных лиц компании в черных списках банков, большая налоговая нагрузка. Таким образом, мы уже после первой проверки отсеиваем часть кандидатов на получение займов.
В основе системы скоринга лежит модель, разработанная с применением методов машинного обучения. По своей сути это PD-модель — модель предсказания дефолта заемщика, которая повсеместно используется в мировой банковской практике. С технической точки зрения PD-модель — модель бинарной классификации, где:
Несмотря на то, что в исследовательской деятельности (на этапе разработки) мы проводим эксперименты с неинтерпретируемыми моделями, модель в продакшене реализована исключительно на основе интерпретируемых методов, включающих в себя логистическую регрессию и деревья решений. Это позволяет точно прогнозировать поведение и контролировать разработанную модель в процессе эксплуатации. Применение неинтерпретируемых методов (в частности — градиентного бустинга) позволяет оценить наличие «запаса» в точности предсказания, который потенциально можно извлечь из данных. Если мы выявляем критически большой запас точности между построенной интерпретируемой и неинтерпретируемой моделями, начинаем детальнее прорабатывать этап feature engineering’а (процесса создания синтетических факторов на основе базовых).
Процесс обучения модели состоит из четырех основных этапов
Сам процесс разработки построен направленно, но не линейно. Так, если необходимо, мы возвращаемся к любому прошлому этапу, например, к генерации новых факторов или изменению параметров биннинга, чтобы улучшить метрику качества, и повторно проходим все последующие за ним шаги. По итогу модель валидируется на отложенной в начале работы тестовой выборке, после чего принимается решение о внедрении модели в работу.
Основной метрикой качества для оценки работы модели является коэффициент gini, которая показывает качество ранжирования объектов друг относительно друга. Итоговая модель валидируется путём сравнения gini на тренировочной и тестовой выборках с базовой моделью, а в процессе разработки (например, при отборе факторов или тюнинге гиперпараметров), валидация происходит методом сравнения gini на подгруппах-фолдах (fold), выделенных из тренировочной выборки. Такой метод называется кросс-валидацией. При этом важным фактом является близость метрики качества между тренировочной и тестовой выборкой — это основной показатель стабильности предсказаний модели.
Технически пайплайн модели выглядит следующим образом:
Применяя подобные классические интерпретируемые подходы машинного обучения мы получаем ряд преимуществ:
Решение о выдаче займа и соответствующей риску процентной ставке ML-модель принимает, исходя из данных, описывающих заёмщика. Поэтому за кулисами работы машинного скоринга находится обширная система сбора и проверки данных из открытых и закрытых источников, государственных систем (БКИ, налоговой и пр.), запрос и проверка подтверждающих документов о компании со стороны профессионалов-андеррайтеров и сопровождение сделок. Хотя в общем виде скоринг заёмщика — параллельная работа андеррайтера и автоматики на основе МЛ-модели — оценка начинается с прохождения стоп-факторов и базового скоринга моделью, после чего андеррайтер приступает к проверкам и корректировкам, повторяя скоринг по исправленным данным в случае необходимости.
По мере эксплуатации модели также реализован процесс регулярной калибровки, который происходит по мере реализации дефолтов в рейтинг-группах. Данный процесс позволяет держать уровень дефолтов в пределах планируемых значений и стабилизировать уровень рисков для инвестора.
Функционирование платформы и конкретно скоринговой системы основано на работе с данными — это важный, если не основной массив задач.
Чтобы защитить все пользовательские данные от любых рисков: удаления, утечек, взломов, несанкционированного изменения и других, мы реализовали ряд мер:
Благодаря комплексу реализованных мер, платформа устойчива к внешним атакам и данные защищены.
Модели кредитного скоринга (скоринговые карты) – это узкоспециализированные модели. Вся процедура построения и валидации разрабатывалась для самостоятельного использования в банковской сфере, учитывая требования интерпретации результатов и прогнозируемости работы. Скоринг-карту достаточно легко применить к любой задаче классификации, но чаще всего её используют именно банки, мфо и прочие финансовые организации, у которых бизнес базируется на расчетах Pd заёмщика.
О платформе
JetLend — инвестиционная платформа в сфере краудлендинга. Краудлендинг — метод прямого онлайн-финансирования бизнеса физическими лицами и профессиональными инвесторами. JetLend позволяет заемщикам без долгих банковских процедур получать деньги на развитие своих проектов, а инвесторам — доходность.
Сейчас на платформе:
- выдано займов бизнесу на сумму более 8,7 млрд ₽;
- количество инвесторов на платформе превышает 70 тысяч.
Дефолтность не превышает 1,35%. Одна из причин — алгоритм работы платформы с проверкой потенциальных заемщиков как андеррайтерами проекта (специалистами, осуществляющими независимую экспертизу), так и скоринговой системой на основе ML-модели (Machine Learning).
Как всё работает
Упрощенно алгоритм работы платформы выглядит следующим образом:
- заемщик подает заявку на получение займа;
- мы проводим оценку компании;
- верифицируем данные;
- запускаем сбор средств от инвесторов — при этом, инвесторы видят рейтинг компании, доходность инвестиций и описание заемщика;
- после завершения сбора деньги перечисляются заемщику;
- заемщик возвращает процентный доход инвесторам.
Схема максимально прозрачная:
- инвестор знает, кому дает деньги и сколько сможет заработать;
- заемщик знает, на каких условиях получает транш.
В алгоритме работы есть ключевой этап, который остается вне поля зрения как для инвесторов, так и для заемщиков — скоринг заемщика по множеству критериев и присвоение ему внутреннего рейтинга.
Как устроено и работает «ядро»
Скоринг ― это исследование характеристик клиента по множеству параметров, по результатам которого каждому потенциальному заемщику присваивается рейтинг.
В нашей системе 18 рейтингов:
- 3 категории (А, В, С), где А соответствует низкому риску дефолта, а С — высокому.
- 6 градаций (например, А, А+, АА, АА+). Чем больше плюсов, тем выше рейтинг.
Для определения рейтинга предусмотрен двухуровневый скоринг:
- Первый уровень — ранжирование с помощью ML-модели. На первом этапе проверки все потенциальные заемщики проходят через автоматизированную систему скоринга, которая учитывает как количественные, так и качественные факторы — от текущей кредитной истории компании и ее финансовой отчетности до даты создания организации и возраста ее владельца. Чтобы аналитика была максимально объективной и ретроспективной, процедура автоматического скоринга построена на использовании моделей машинного обучения.
- Второй уровень — проверка и ранжирование андеррайтерами проекта. На втором этапе андеррайтеры работают с полученным рейтингом, запрашивают дополнительные документы, проверяют актуальность и подлинность предоставляемой информации — выполняют работу, которая нивелирует любые погрешности при расчете ML-модели.
Отдельно можно выделить нулевой этап, на котором заемщик проверяется на наличие стоп-факторов, к которым относятся, например, большие задолженности по кредитам, наличие аффилированных лиц компании в черных списках банков, большая налоговая нагрузка. Таким образом, мы уже после первой проверки отсеиваем часть кандидатов на получение займов.
Как работает ML-модель
В основе системы скоринга лежит модель, разработанная с применением методов машинного обучения. По своей сути это PD-модель — модель предсказания дефолта заемщика, которая повсеместно используется в мировой банковской практике. С технической точки зрения PD-модель — модель бинарной классификации, где:
- целевая переменная (target) — факт дефолта (например, 0 — соответствует успешно погашенному займу, 1 — дефолту);
- факторы (features) — набор данных о заемщике на момент скоринга, в том числе, данные из БКИ, финансовой отчетности компании-заемщика, данные об учредителях и аффилированных лицах и другие.
Несмотря на то, что в исследовательской деятельности (на этапе разработки) мы проводим эксперименты с неинтерпретируемыми моделями, модель в продакшене реализована исключительно на основе интерпретируемых методов, включающих в себя логистическую регрессию и деревья решений. Это позволяет точно прогнозировать поведение и контролировать разработанную модель в процессе эксплуатации. Применение неинтерпретируемых методов (в частности — градиентного бустинга) позволяет оценить наличие «запаса» в точности предсказания, который потенциально можно извлечь из данных. Если мы выявляем критически большой запас точности между построенной интерпретируемой и неинтерпретируемой моделями, начинаем детальнее прорабатывать этап feature engineering’а (процесса создания синтетических факторов на основе базовых).
Процесс обучения модели состоит из четырех основных этапов
- Подготовка данных. В качестве наблюдений берутся займы уникальных заемщиков, данные о компании-заемщике на момент скоринга для факторов, итоговый статус кредита для целевой (дефолт/погашен). На этом же этапе формируется разделение данных на тренировочную и тестовую выборки. Тестовая выборка фиксируется и не доступна до финальной валидации результатов модели.
- Подготовка факторов. На этом этапе происходит генерация синтетических факторов из сырых данных, разбивка непрерывных числовых значений факторов на бины, объединение значений категориальных факторов в более крупные бины (при необходимости), WoE-преобразование.
- Отбор факторов для финальной модели. Учитываем как статистические, так и модельные метрики. Примеры статистических метрик — парные корреляции факторов, индекс стабильности популяции (PSI). Модельные метрики — кроссвалидационный gini моделей, построенных на подгруппе факторов.
- Финальный тюнинг гиперпараметров модели.
Сам процесс разработки построен направленно, но не линейно. Так, если необходимо, мы возвращаемся к любому прошлому этапу, например, к генерации новых факторов или изменению параметров биннинга, чтобы улучшить метрику качества, и повторно проходим все последующие за ним шаги. По итогу модель валидируется на отложенной в начале работы тестовой выборке, после чего принимается решение о внедрении модели в работу.
Основной метрикой качества для оценки работы модели является коэффициент gini, которая показывает качество ранжирования объектов друг относительно друга. Итоговая модель валидируется путём сравнения gini на тренировочной и тестовой выборках с базовой моделью, а в процессе разработки (например, при отборе факторов или тюнинге гиперпараметров), валидация происходит методом сравнения gini на подгруппах-фолдах (fold), выделенных из тренировочной выборки. Такой метод называется кросс-валидацией. При этом важным фактом является близость метрики качества между тренировочной и тестовой выборкой — это основной показатель стабильности предсказаний модели.
Технически пайплайн модели выглядит следующим образом:
- Разделение данных на тренировочную и тестовую выборки.
- Построение однофакторного дерева решений по каждому фактору. «Листья» дерева используются в качестве бинов (для разбивки непрерывных числовых значений факторов).
- Кодирование факторов, преобразованных в бины, с помощью WoE-преобразования.
- Считывание статистических метрик и Information Value (из WoE) по факторам, отбор по критическим значениям.
- Итеративное построение модели на основе логистической регрессии на подгруппе факторов. Если на кросс-валидации наблюдается значимый прирост gini, фактор включается в модель.
- Тюнинг гиперпараметров логистической регрессии с кросс-валидационной оценкой по gini. Перебираются значения гиперпараметров, строится модель логистической регрессии, результат проверяется на кросс-валидации.
- Итоговая валидация модели на отложенной тестовой выборке. Сравнение метрики качества на тестовой выборке новой и старой модели, сравнение метрики новой модели на тренировочной и тестовой выборке на предмет стабильности предсказания.
- Интерпретация модели в формате скоринг-карты.
Применяя подобные классические интерпретируемые подходы машинного обучения мы получаем ряд преимуществ:
- итоговая скоринг-карта поддаётся экспертной оценке;
- можно проверить каждый этап разработки модели (деревья визуализируемые, коэффициенты логистической регрессии доступны);
- легко интегрировать данное решение в процесс скоринга (нужно лишь сопоставлять значение фактора с бином, а бин — с баллом, итоговая сумма баллов = рейтинг);
- скоринг клиента происходит моментально.
Решение о выдаче займа и соответствующей риску процентной ставке ML-модель принимает, исходя из данных, описывающих заёмщика. Поэтому за кулисами работы машинного скоринга находится обширная система сбора и проверки данных из открытых и закрытых источников, государственных систем (БКИ, налоговой и пр.), запрос и проверка подтверждающих документов о компании со стороны профессионалов-андеррайтеров и сопровождение сделок. Хотя в общем виде скоринг заёмщика — параллельная работа андеррайтера и автоматики на основе МЛ-модели — оценка начинается с прохождения стоп-факторов и базового скоринга моделью, после чего андеррайтер приступает к проверкам и корректировкам, повторяя скоринг по исправленным данным в случае необходимости.
По мере эксплуатации модели также реализован процесс регулярной калибровки, который происходит по мере реализации дефолтов в рейтинг-группах. Данный процесс позволяет держать уровень дефолтов в пределах планируемых значений и стабилизировать уровень рисков для инвестора.
Как выстроена работа с данными
Функционирование платформы и конкретно скоринговой системы основано на работе с данными — это важный, если не основной массив задач.
Чтобы защитить все пользовательские данные от любых рисков: удаления, утечек, взломов, несанкционированного изменения и других, мы реализовали ряд мер:
- ML-модель работает на выделенных, изолированных серверах компании, которые администрируются командой проекта;
- все данные размещены на локальном хранилище на территории России, доступ к которому ограничен и четко контролируется;
- предусмотрено шифрование данных, разграничение прав доступа, защита контуров;
- доступ к критическим сервисам можно получить только по сертификату или ключу;
- реализована репликация данных, которая позволяет балансировать нагрузку на сервис, повышает доступность данных и их защиту в случае падения одного из серверов.
Благодаря комплексу реализованных мер, платформа устойчива к внешним атакам и данные защищены.
Саммари
- Принцип работы JetLend основан на использовании двухуровневого скоринга с задействованием скоринговой системы на базе искусственного интеллекта, который минимизирует риски для инвесторов.
- Основа автоматической скоринговой системы — PD-модель машинного обучения, построенная для решения задачи бинарной классификации. Она анализирует загруженный набор данных и на выходе выдает интерпретируемый результат, который мы конвертируем в рейтинг дебитора.
- Реализованная система скоринга позволяет инициировать повторную проверку при актуализации данных или получении новой информации. Это даёт возможность строить точный прогноз по каждой заявке, основываясь на актуальных, а не устаревших сведениях
- Подобная реализация платформы позволяет получить непредвзятую, объективную оценку потенциального заемщика, чтобы создать равные условия для всех и снизить риски для инвесторов.