4 июля в Москве прошел III ежегодный форум «Data Day: Как выжать максимум из данных». В мероприятии принял участие Максим Чайка, руководитель бизнес-направления «Кредитные риски» в компании IBS. Он выступил с докладом «Как максимизировать Gini, используя трансформерные нейросети?».
Эксперт IBS отметил, что при моделировании кредитных рисков банкам важно использовать алгоритмы, которые могут с максимальной точностью разделять надежных и проблемных заемщиков. Наиболее популярной метрикой для оценки качества таких моделей является коэффициент Gini.
До 2010-х годов для моделирования кредитных рисков обычно применялся метод логистической регрессии, напомнил Максим Чайка. Затем появились ансамблевые методы машинного обучения — бустинг, бэггинг и стэкинг, а примерно с 2018 года стали использоваться нейросети.
«Чтобы максимизировать коэффициент Gini, надо найти подходящий алгоритм с наивысшей разделяющей способностью. Таким решением могут быть трансформерные нейросети. Их отличительная черта — механизм внимания: фокус на наиболее важных частях данных и игнорирование менее важных. Трансформеры способны обрабатывать неструктурированные данные и данные сверхбольшого объема, что делает их эффективным инструментом для решения задач кредитного скоринга», — объяснил Максим Чайка, руководитель бизнес-направления «Кредитные риски» IBS.
Кроме того, он обратил внимание на особенности банковской архитектуры с использованием трансформерной нейросети. Для того чтобы трансформер успешно работал, нужны механизмы интеграции, обновление хранилищ данных, создание инфраструктуры моделирования, доступ к дополнительным данным, а также реорганизация функции рисков и смежных процессов.
В ходе выступления Максим Чайка рассказал о подходах, которые используются в IBS при оценке качества моделей кредитного риска.
«Чтобы быть рекомендованной к использованию в бизнес-процессах, каждая модель должна пройти 25 тестов. Помимо коэффициента Gini и других показателей дискриминационной способности, оценивается точность и стабильность модели, а также процессы банка, связанные с ее разработкой и внедрением в промышленную эксплуатацию. При создании модели особое внимание уделяется взаимодействию между заказчиками и моделистами, чтобы конечный результат соответствовал не только метрикам качества, но и потребностям бизнеса», — подчеркнул он.
Data Day — одно из крупнейших мероприятий для специалистов Data Science, Big Data и Data Analytics. Форум организован порталом FutureBanking и командой Scoring Day. В этом году на мероприятии выступили более 30 спикеров. Участники форума обсудили, как находить новые точки роста бизнеса за счет data-driven подхода, грамотно применять генеративный искусственный интеллект и повышать продуктивность работы Data Science-команд.