Ques/Help/Req Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend

XakeR

Member
Регистрация
13.05.2006
Сообщения
1 912
Реакции
0
Баллы
16
Местоположение
Ukraine
Меня зовут Дмитрий Яшин, я Lead Data Scientist в JetLend. В этом материале я расскажу, что такое JetLend, как устроена платформа и выстроен алгоритм работы с данными, а также как ML помогает нам аргументированно оценивать заемщиков и снижать риски для инвесторов.

Модели кредитного скоринга (скоринговые карты) – это узкоспециализированные модели. Вся процедура построения и валидации разрабатывалась для самостоятельного использования в банковской сфере, учитывая требования интерпретации результатов и прогнозируемости работы. Скоринг-карту достаточно легко применить к любой задаче классификации, но чаще всего её используют именно банки, мфо и прочие финансовые организации, у которых бизнес базируется на расчетах Pd заёмщика.

О платформе​


JetLend — инвестиционная платформа в сфере краудлендинга. Краудлендинг — метод прямого онлайн-финансирования бизнеса физическими лицами и профессиональными инвесторами. JetLend позволяет заемщикам без долгих банковских процедур получать деньги на развитие своих проектов, а инвесторам — доходность.

Сейчас на платформе:​

  • выдано займов бизнесу на сумму более 8,7 млрд ₽;
  • количество инвесторов на платформе превышает 70 тысяч.

Дефолтность не превышает 1,35%. Одна из причин — алгоритм работы платформы с проверкой потенциальных заемщиков как андеррайтерами проекта (специалистами, осуществляющими независимую экспертизу), так и скоринговой системой на основе ML-модели (Machine Learning).

Как всё работает​


Упрощенно алгоритм работы платформы выглядит следующим образом:

  • заемщик подает заявку на получение займа;
  • мы проводим оценку компании;
  • верифицируем данные;
  • запускаем сбор средств от инвесторов — при этом, инвесторы видят рейтинг компании, доходность инвестиций и описание заемщика;
  • после завершения сбора деньги перечисляются заемщику;
  • заемщик возвращает процентный доход инвесторам.

Схема максимально прозрачная:

  • инвестор знает, кому дает деньги и сколько сможет заработать;
  • заемщик знает, на каких условиях получает транш.

Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend0


В алгоритме работы есть ключевой этап, который остается вне поля зрения как для инвесторов, так и для заемщиков — скоринг заемщика по множеству критериев и присвоение ему внутреннего рейтинга.

Как устроено и работает «ядро»​


Скоринг ― это исследование характеристик клиента по множеству параметров, по результатам которого каждому потенциальному заемщику присваивается рейтинг.

В нашей системе 18 рейтингов:

  • 3 категории (А, В, С), где А соответствует низкому риску дефолта, а С — высокому.
  • 6 градаций (например, А, А+, АА, АА+). Чем больше плюсов, тем выше рейтинг.

Для определения рейтинга предусмотрен двухуровневый скоринг:

  • Первый уровень — ранжирование с помощью ML-модели. На первом этапе проверки все потенциальные заемщики проходят через автоматизированную систему скоринга, которая учитывает как количественные, так и качественные факторы — от текущей кредитной истории компании и ее финансовой отчетности до даты создания организации и возраста ее владельца. Чтобы аналитика была максимально объективной и ретроспективной, процедура автоматического скоринга построена на использовании моделей машинного обучения.
  • Второй уровень — проверка и ранжирование андеррайтерами проекта. На втором этапе андеррайтеры работают с полученным рейтингом, запрашивают дополнительные документы, проверяют актуальность и подлинность предоставляемой информации — выполняют работу, которая нивелирует любые погрешности при расчете ML-модели.

Отдельно можно выделить нулевой этап, на котором заемщик проверяется на наличие стоп-факторов, к которым относятся, например, большие задолженности по кредитам, наличие аффилированных лиц компании в черных списках банков, большая налоговая нагрузка. Таким образом, мы уже после первой проверки отсеиваем часть кандидатов на получение займов.

Как работает ML-модель​


В основе системы скоринга лежит модель, разработанная с применением методов машинного обучения. По своей сути это PD-модель — модель предсказания дефолта заемщика, которая повсеместно используется в мировой банковской практике. С технической точки зрения PD-модель — модель бинарной классификации, где:

  • целевая переменная (target) — факт дефолта (например, 0 — соответствует успешно погашенному займу, 1 — дефолту);
  • факторы (features) — набор данных о заемщике на момент скоринга, в том числе, данные из БКИ, финансовой отчетности компании-заемщика, данные об учредителях и аффилированных лицах и другие.

Несмотря на то, что в исследовательской деятельности (на этапе разработки) мы проводим эксперименты с неинтерпретируемыми моделями, модель в продакшене реализована исключительно на основе интерпретируемых методов, включающих в себя логистическую регрессию и деревья решений. Это позволяет точно прогнозировать поведение и контролировать разработанную модель в процессе эксплуатации. Применение неинтерпретируемых методов (в частности — градиентного бустинга) позволяет оценить наличие «запаса» в точности предсказания, который потенциально можно извлечь из данных. Если мы выявляем критически большой запас точности между построенной интерпретируемой и неинтерпретируемой моделями, начинаем детальнее прорабатывать этап feature engineering’а (процесса создания синтетических факторов на основе базовых).

Процесс обучения модели состоит из четырех основных этапов

  • Подготовка данных. В качестве наблюдений берутся займы уникальных заемщиков, данные о компании-заемщике на момент скоринга для факторов, итоговый статус кредита для целевой (дефолт/погашен). На этом же этапе формируется разделение данных на тренировочную и тестовую выборки. Тестовая выборка фиксируется и не доступна до финальной валидации результатов модели.
  • Подготовка факторов. На этом этапе происходит генерация синтетических факторов из сырых данных, разбивка непрерывных числовых значений факторов на бины, объединение значений категориальных факторов в более крупные бины (при необходимости), WoE-преобразование.
  • Отбор факторов для финальной модели. Учитываем как статистические, так и модельные метрики. Примеры статистических метрик — парные корреляции факторов, индекс стабильности популяции (PSI). Модельные метрики — кроссвалидационный gini моделей, построенных на подгруппе факторов.
  • Финальный тюнинг гиперпараметров модели.

Сам процесс разработки построен направленно, но не линейно. Так, если необходимо, мы возвращаемся к любому прошлому этапу, например, к генерации новых факторов или изменению параметров биннинга, чтобы улучшить метрику качества, и повторно проходим все последующие за ним шаги. По итогу модель валидируется на отложенной в начале работы тестовой выборке, после чего принимается решение о внедрении модели в работу.

Основной метрикой качества для оценки работы модели является коэффициент gini, которая показывает качество ранжирования объектов друг относительно друга. Итоговая модель валидируется путём сравнения gini на тренировочной и тестовой выборках с базовой моделью, а в процессе разработки (например, при отборе факторов или тюнинге гиперпараметров), валидация происходит методом сравнения gini на подгруппах-фолдах (fold), выделенных из тренировочной выборки. Такой метод называется кросс-валидацией. При этом важным фактом является близость метрики качества между тренировочной и тестовой выборкой — это основной показатель стабильности предсказаний модели.

Технически пайплайн модели выглядит следующим образом:

  • Разделение данных на тренировочную и тестовую выборки.
  • Построение однофакторного дерева решений по каждому фактору. «Листья» дерева используются в качестве бинов (для разбивки непрерывных числовых значений факторов).
  • Кодирование факторов, преобразованных в бины, с помощью WoE-преобразования.
  • Считывание статистических метрик и Information Value (из WoE) по факторам, отбор по критическим значениям.
  • Итеративное построение модели на основе логистической регрессии на подгруппе факторов. Если на кросс-валидации наблюдается значимый прирост gini, фактор включается в модель.
  • Тюнинг гиперпараметров логистической регрессии с кросс-валидационной оценкой по gini. Перебираются значения гиперпараметров, строится модель логистической регрессии, результат проверяется на кросс-валидации.
  • Итоговая валидация модели на отложенной тестовой выборке. Сравнение метрики качества на тестовой выборке новой и старой модели, сравнение метрики новой модели на тренировочной и тестовой выборке на предмет стабильности предсказания.
  • Интерпретация модели в формате скоринг-карты.

Применяя подобные классические интерпретируемые подходы машинного обучения мы получаем ряд преимуществ:

  • итоговая скоринг-карта поддаётся экспертной оценке;
  • можно проверить каждый этап разработки модели (деревья визуализируемые, коэффициенты логистической регрессии доступны);
  • легко интегрировать данное решение в процесс скоринга (нужно лишь сопоставлять значение фактора с бином, а бин — с баллом, итоговая сумма баллов = рейтинг);
  • скоринг клиента происходит моментально.

Решение о выдаче займа и соответствующей риску процентной ставке ML-модель принимает, исходя из данных, описывающих заёмщика. Поэтому за кулисами работы машинного скоринга находится обширная система сбора и проверки данных из открытых и закрытых источников, государственных систем (БКИ, налоговой и пр.), запрос и проверка подтверждающих документов о компании со стороны профессионалов-андеррайтеров и сопровождение сделок. Хотя в общем виде скоринг заёмщика — параллельная работа андеррайтера и автоматики на основе МЛ-модели — оценка начинается с прохождения стоп-факторов и базового скоринга моделью, после чего андеррайтер приступает к проверкам и корректировкам, повторяя скоринг по исправленным данным в случае необходимости.

По мере эксплуатации модели также реализован процесс регулярной калибровки, который происходит по мере реализации дефолтов в рейтинг-группах. Данный процесс позволяет держать уровень дефолтов в пределах планируемых значений и стабилизировать уровень рисков для инвестора.

Как выстроена работа с данными​


Функционирование платформы и конкретно скоринговой системы основано на работе с данными — это важный, если не основной массив задач.

Чтобы защитить все пользовательские данные от любых рисков: удаления, утечек, взломов, несанкционированного изменения и других, мы реализовали ряд мер:

  • ML-модель работает на выделенных, изолированных серверах компании, которые администрируются командой проекта;
  • все данные размещены на локальном хранилище на территории России, доступ к которому ограничен и четко контролируется;
  • предусмотрено шифрование данных, разграничение прав доступа, защита контуров;
  • доступ к критическим сервисам можно получить только по сертификату или ключу;
  • реализована репликация данных, которая позволяет балансировать нагрузку на сервис, повышает доступность данных и их защиту в случае падения одного из серверов.

Благодаря комплексу реализованных мер, платформа устойчива к внешним атакам и данные защищены.

Саммари​

  • Принцип работы JetLend основан на использовании двухуровневого скоринга с задействованием скоринговой системы на базе искусственного интеллекта, который минимизирует риски для инвесторов.
  • Основа автоматической скоринговой системы — PD-модель машинного обучения, построенная для решения задачи бинарной классификации. Она анализирует загруженный набор данных и на выходе выдает интерпретируемый результат, который мы конвертируем в рейтинг дебитора.
  • Реализованная система скоринга позволяет инициировать повторную проверку при актуализации данных или получении новой информации. Это даёт возможность строить точный прогноз по каждой заявке, основываясь на актуальных, а не устаревших сведениях
  • Подобная реализация платформы позволяет получить непредвзятую, объективную оценку потенциального заемщика, чтобы создать равные условия для всех и снизить риски для инвесторов.
 
198 237Темы
635 209Сообщения
3 618 425Пользователи
Pandar96Новый пользователь
Верх