Как сделать скоринговую модель
В последнее время для сегментирования стали применяться скоринговые модели 2 . Наиболее успешно скоринговые модели применяются в финансово-банковской сфере деятельности для оценки кредитоспособности клиента, но существует тенденция все большего применения скоринговых моделей и для сегментирования потребителей в других областях.
Анализ потребителей производится на основе скоринговых анкет. Анализируемые данные в этом случае представляются в виде обычной таблицы, в которой содержатся прецеденты. Таблица, помимо факторов, используемых аналитиком для оценки опрошенных клиентов, содержит и столбец, в котором указывается, совершил или не совершил данный клиент покупку.
На этих данных строятся модели, объясняющие поведение уже имеющихся потребителей, и делается предположение, что будущие потребители поведут себя аналогично. Часто используется множественная линейная регрессия, связывающая поведение зависимой переменной (платежеспособность клиента, перспективность клиента) с линейной функцией ряда независимых переменных (скоринго- выми характеристиками). Результатом является наилучшая линейная зависимость путем минимизации суммы стандартных отклонений.
где Yj — зависимая переменная (платежеспособный/неплатежеспо- собный клиент);
X. — независимые переменные (скоринговые характеристики); Р - параметры модели (скоринговые баллы). Ранжирование и шкалирование скоринговых баллов зависит от пропорции, использованной при формировании модели случаев.
Как известно, для построения любой статистической модели необходимо иметь качественную базу данных. База данных для построения скоринговой модели, собственная, вновь создаваемая или приобретенная, должна содержать всю интересующую информацию по уже имеющимся у компании клиентам, позволяющую сделать выводы по интересующему вопросу.
Как работает такая модель? Рассмотрим на примере.
Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов).
Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент "хорошим" или "плохим". Чаще всего "плохим" считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к "хорошим", ни к "плохим", поскольку
они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история "неясна" (например, были задержки по 3 месяца, но не подряд). Как правило, такие "промежуточные" клиенты исключаются из выборки.
Эмпирические требования к базе данных, используемых для построения скоринговой модели:
размер выборки - не менее 1500 всего, не менее 500 плохих;
четкое определение критерия "плохой"/"хороший". Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять "плохих" и "хороших";
четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);
стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;
неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.
При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией "плохой"/"хороший".
Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.
Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)?
Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на "хороших" и плохих" согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.
Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект "по отношению" в определении очень важен).
Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.
Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.
Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.
Самый часто используемый метод построения рейтинговых таблиц
Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.
В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она "объясняет", почему У меняется от одного индивидуума к другому.
С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько
вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е.
Y = B_0 + B_1 x X_1
B0 - это величина Y, когда X = 0;
B1 - наклон прямой линии.
Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:
Y = B_0 + B_1 x X_1 + B_2 x X_2 + . + B_n x X_n.
Логистическая регрессия в сравнении с линейной регрессией
При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение "1", а выплаченному кредиту - значение "0".
Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог).
И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения).
Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные. Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название "логистическая").
В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:
ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + .
р - вероятность того, что V произойдет;
р/(1 - р) - отношение шансов.
Шансы и соотношение шансов
Соотношение шансов позволяет сравнивать уровни рисков для разных кредитов. Так, если для одного р1/(1 - p_1) = 0,11, а для другого р2/(1 - р2) = 0,052, то их отношение составит 0,46, т.е. риск невозврата по одному кредиту составляет чуть меньше половины риска невозврата по второму кредиту.
Самые важные выводы из этого следующие: необходимо получать сами шансы и их отношения для разных кредитов из логистических регрессий, т.к. только так удается прямо сопоставить и учесть как влияние отдельных характеристик на уровень риска, так и относительный риск одного кредита по отношению к другому. Попытки обойтись одной рейтинговой таблицей не позволяют оценить рисковость одного кредита относительно другого в силу возможного влияния характеристик, которые были учтены для одного и не учтены для другого.
Вычисление относительных весов отдельных характеристик рейтинговой таблицы
Построив и оценив логистическую модель, можно подставить величины X для любого заявителя или кредита и вычислить счет (score), используя уравнение:
Однако этот счет представлен в шкале натуральных логарифмов, что неудобно для интерпретации. Поэтому счет переводится в линейную шкалу, где определенное число баллов выбирается так, чтобы это число обеспечивало удвоение шансов того, что определенное событие произойдет. Для этого необходимо умножить счет на множитель, равный числу баллов, которое должно представлять удвоение шансов, а затем поделить на 1n(2):
счет по линейной шкале = (В 1 х Х 1 + . + Вп х Хп) х (20/1п(2)),
если желаемое число баллов, необходимое для удвоения шансов, равно 20.
Иначе, если надо узнать, сколько именно баллов дает каждая характеристика, можно умножить каждое В_1 на (20/(1n(2)), а затем умножить на значение параметра X_1.
Использование КС-статистики для оценки полученной рейтинговой таблицы
Скоринговая таблица конструируется так, чтобы ранжировать различные кредиты в терминах шансов по отношению к определенному событию.
Необходимо, чтобы такая скоринговая таблица приписывала кредитам, с которыми происходит некое событие, и кредитам, с которыми оно не происходит, различные счета.
Например, кредитная скоринговая таблица (скоринговая карта) приписывает меньший счет тем кредитам, которые впоследствии испытают серьезные трудности с возвратом или перейдут в дефолт, так что в целом группа плохих кредитов должна иметь меньшие счета, чем группа хороших кредитов.
Для определения качества полученной таблицы строятся графики - кривые распределения процентов хороших и процентов плохих кредитов (от соответствующего общего числа хороших и плохих) в зависимости от величины счета, и качество скоринговой таблицы (карты) характеризуется тем, насколько эти две кривые разделяются.
Именно для численного определения качества разделения и используется статистика Колмогорова-Смирнова (K-S statistics), которая дает числовую меру этого разделения. Статистика КС вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" и кумулятивным процентом распределения "плохих". Теоретически статистика КС может принимать значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица; />61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то неправильно* (128).
Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.
Если вы планируете запуск какого-либо продукта, вам нужно не только правильно определить цели (об этом мы писали здесь), но и расставить их в определенном порядке. Для этого подойдет скоринг (scoring) задач. Какие методы расстановки задач существуют и как они помогают сделать выбор в сложных ситуациях, нам рассказал Юрий Бранковский, продакт-менеджер с 7-летним опытом работы в ИТ, ментор и член жюри хакатонов Emerge и Epam engineering jam.
Юрий Бранковский
Ментор и член жюри хакатонов Emerge и Epam engineering jam
— Скоринг задач (приоритизация списка задач) — один из инструментов, который регулярно используют при разработке и запуске продукта. Скоринг нужен для очистки бэклога от ненужных, бесполезных или утративших актуальность задач или для определения состава роадмэпа продукта, продуктового портфеля компании. Сам по себе скоринг ничего не дает и как любой инструмент может принести компании и пользу, и вред. Поэтому важно понимать, как, где и когда его применение актуально.
Бэклог — это журнал оставшейся работы, которую необходимо выполнить команде.
Относительный скоринг
Если проект оценивать относительно влияния на фокус компании, глобальную цель, то все равно стоит любому фокусу и цели сопоставлять цифры. Поэтому лучше всего для скоринга использовать понятную метрику, которую просто посчитать и проще спрогнозировать степень ее изменения.
Рис. 1. Пример дерева метрик маркетплейса курсов.
Например, на рисунке 1 показано верхнеуровневое дерево метрик маркетплейса образовательных курсов, в котором количество оплаченных курсов определяется более низкоуровневыми метриками:
Количество оплаченных курсов = трафик х конверсию в заявку х конверсию в оплату.
При этом объем трафика зависит от количества партнеров. И если декомпозировать дерево дальше, можно составить ветвь метрик для отдела продаж, где партнеры будут разбиты на категории (например, по объему трафика), а менеджеры будут обзванивать те сегменты, которые приводят больше потенциальных покупателей.
Таким образом, команды получат четкую метрику, которая:
1) позволяет производить скоринг, опираясь на четкие, понятные данные (количество оплаченных курсов, конверсия в заявку и оплату)
2) дает понимание, как именно команды своей работой влияют на глобальную цель компании (что повышает и эффективность работы, и мотивацию).
Модели скоринга
((Доход от вложений — размер вложений) / Размер вложений)*100% = ROI (коэффициент окупаемости вложений)
Для SaaS-сервисов можно использовать другую формулу:
((Жизненная ценность клиента — стоимость приобретения клиента) / стоимость приобретения клиента)*100% = ROI, где жизненная ценность клиента = CLV = (средняя стоимость покупки х среднее количество повторных покупок).
Например, у вас есть две кампании. Одна стоит 100 тыс. руб. РФ, вторая — 200 тыс. руб. РФ. Потенциально первая может принести 1000 новых пользователей, вторая — 4000 пользователей. Сперва вторая кажется более выгодной, так как стоимость привлечения клиента в два раза меньше. Но разработка первой кампании будет стоить 60 тыс. руб., а второй — 150 тыс. руб. Например, за счет необходимости партнерских интеграций и дополнительной разработки. При этом в первом случае вы ведете пользователя на свой лендинг, где он покупает услугу за 200 рублей, а во втором случае вы даете скидку 50% (100 руб.) в рамках акции с партнером.
Таким образом, считая все данные и полагая CLV одинаковыми для обоих случаев, получаем:
- Расходы в тыс. руб. на приобретение клиента в первом случае: 100 + 60, во втором: 200 + 150
- Потенциальный доход в первом случае: 200 тыс. руб., во втором — 400 тыс. руб.
- ROI первого проекта: ((200 - 160) / 200)*100= 20%; второго — ((400 - 350) / 400)*100 = 12.5%.
Получается, что обе компании невыгодны при подобной экономике (ROI Рис. 2. Формула расчета RICE
Онбординг (onboarding) — это процесс, через который проходят пользователи от начала своего пути до становления клиентом и далее.
Этот метод определения приоритетов был придуман Шоном Эллисом, который известен авторством термина Growth Hacker.
- Влияние (Impact) показывает, насколько ваша идея положительно повлияет на ключевой показатель, который вы пытаетесь улучшить
- Уверенность (Confidence) показывает, насколько вы уверены в оценках влияния и легкости реализации
- Легкость реализации (Ease) — это о простоте реализации. Это оценка того, сколько усилий и ресурсов требуется для реализации этой идеи.
Весовая модель
Такая модель даже может содержать в себе вышеупомянутые системы, чтобы сделать оценку более сбалансированной и учитывающей специфику команды. Также это позволяет не забывать про стратегические и блокирующие проекты, у которых другие показатели могут быть относительно невысокими.
В любом случае важно описывать принцип проставления баллов, чтобы оценка была максимально прозрачной для всей компании.
Рис. 4. Пример весовой модели.
Как оценить уверенность (confidence)
Рис. 5. Определение уровня уверенности.
Рассмотрим уровни подробнее:
Вывод
Вне зависимости от инструмента, который вы выберете для скоринга, важно помнить про три ключевых момента:
В данной работе приведены результаты исследования эффективности различных методов создания скоринговых моделей оценки кредитоспособности. Полученные модели могут быть использованы в скоринговых системах оценки кредитоспособности потенциальных заемщиков, обратившихся в банк с заявлением на получение кредита.
Похожие темы научных работ по экономике и бизнесу , автор научной работы — Долгушина М.А.
ления его структуры, содержания и технологий обучения, привлечь в сферу образования высококвалифицированных специалистов, повысить его инновационный потенциал и инвестиционную привлекательность [4].
С целью совершенствования финансового механизма высшей школы, необходимо:
1. Разработать модель государственно-общественного управления образовательными учреждениями в целях развития институтов общественного участия в образовательной деятельности и повышения открытости и инвестиционной привлекательности сферы образования.
2. Необходимо совершенствовать действующую модель финансирования, основываясь на некоторых аспектах рыночной модели.
3. Создать новую модель финансирования для всех уровней образования.
4. Внедрить механизмы, способствующие развитию экономической самостоятельности вузов.
1. Курбатова М.В. Образовательное субсидирование в новом механизме финансирования высшего образования // Экономика образования. -2005. - № 2. - С. 23-40.
2. Майбуров И. Финансирование высшего образования в Европе: структурные сдвиги // Общество и экономика. - 2004. - № 9. - С. 167-180.
3. Синицкая Н.Я. Финансово-экономические основы функционирования государственных вузов. Автореферат диссертации. - М., 2000. - С. 20.
4. Степанченко О.Н. Финансирование науки и образования - приоритетное направление устойчивого развития экономической системы // Экономика образования. - 2004. - № 2 - С. 52-58.
МЕТОДЫ СОЗДАНИЯ СКОРИНГОВЫХ МОДЕЛЕЙ
Новосибирский государственный технический университет, г. Новосибирск
В данной работе приведены результаты исследования эффективности различных методов создания скоринговых моделей оценки кредитоспособности. Полученные модели могут быть использованы в скоринговых системах оценки кредитоспособности потенциальных заемщиков, обратившихся в банк с заявлением на получение кредита.
* Магистрант. Научный руководитель доцент кафедры Экономической информатики, кандидат экономических наук Ю.А. Мезенцев
Скоринговая система - это информационная система оценки кредитоспособности заемщика, в основу которой заложена модель, присваивающая каждому заемщику определенный балл в зависимости от величины риска невозврата кредита [1].
Существуют два принципиально разных метода создания скоринга. Первый основан на анализе статистических данных, а второй на экспертной оценке.
Процесс создания скоринговой системы, основанной на анализе статистики (кредитных историй), который используется наиболее часто, состоит из следующих этапов [2]:
1. Создание скоринговой карты (перечня учитываемых в модели параметров).
2. Выбор метода обработки статистических данных (кластеризации). Эти методы довольно разнообразны и включают в себя линейную, логистическую и другие виды регрессии; различные варианты линейного программирования; дерево классификации или рекурсионно-партиционный алгоритм; нейронные сети; генетический алгоритм; метод ближайших соседей.
3. Классификация заемщиков - собственно создание модели на основе части выборки из кредитных историй. Результатом этого этапа становится математическая модель (формула), согласно которой по имеющейся о заемщике информации выдается его оценка в баллах.
4. Проверка модели на оставшейся части выборки.
5. Доработка модели с учетом вновь поступающей информации (по мере накопления новых кредитных историй).
Для того, чтобы правильно выбрать метод обработки статистической информации, с целью создания скоринговой модели (2-й этап создания скоринговой системы), следует провести исследование эффективности доступных методов на реальных данных - кредитных историях.
В проведенном автором исследовании использовалась статистика качества обслуживания долга 539 заемщиков одного из крупных Российских банков. В выборке для каждого заемщика содержались 15 различных характеристик, таких как пол, возраст, уровень образования, сфера деятельности и пр. и ещё 1 ключевая переменная - количество дней просрочек за пол года кредитования. Требовалось составить скоринговую модель, которая по имеющимся 15 характеристикам заемщика может предсказать количество просрочек. Для создания такой модели были исследованы множественная линейная регрессия, факторный анализ данных, экспоненциальная, полиномиальная, кусочно-линейная логарифмическая модели регрессии, авторские регрессионные модели, а также использование нейронных сетей. Все методы исследования данных, кроме нейронных сетей, реализованных в МА^аЬ, были проведены в пакете STATISTICA. Ос-
новным критерием качества полученных моделей являлся коэффициент детерминации, который показывает, какая часть изменений параметров объясняется регрессией, а какая - ошибками регрессии.
При предварительном анализе данных с помощью корреляционной матрицы были выявлены характеристики заемщика (независимые переменные в модели) имеющие наиболее сильную связь с количеством просрочек: размер компании-работодателя, категория заемщика и пол заемщика (женщины более кредитоспособны, чем мужчины). Слабая (незначимая) зависимость наблюдается между кредитной историей и сроком кредитования, а также между кредитной историей и сроком работы заемщика на последнем месте. Между независимыми переменными также были выявлены значимые корреляции, выявлены группы: 1) категория заемщика, тип заемщика, размер компании, сфера деятельности и 2) регион объекта залога и сумма кредита.
В факторном анализе принимало участие 13 независимых переменных, наиболее сильно связанных с зависимой переменной скоринговой модели - количеством просрочек. В результате факторного анализа 13 переменных были объединены в 10 групп, однако модель множественной регрессии, в которой независимыми переменными выступили 10 групп, оказалась, вопреки ожиданиям, менее эффективной, чем ранее построенная скоринговая модель, в которой независимыми переменными выступали 10 из имеющихся в выборке 15-и характеристик. Коэффициент детермина-
ции модели, построенной на факторизованных данных составил 38 %, кроме того, эта модель имела ещё один существенный недостаток - значения независимых переменных в ней были сами по себе не интерпретируемы, т.к. являлись линейной комбинацией кодов качественных характеристик.
В дальнейшем анализе использовались лишь 10 переменных определенных как значимые в модели множественной линейной регрессии за исключением 3-х специфичных случаев (выбросов). С помощью средств пакета STATISTICA были построены модели экспоненциальной, полиномиальной, кусочно-линейной и логарифмической моделей регрессии, сравнение эффективностей которых приведено далее в табл. 1, а также 2 авторские регрессионные модели.
1-я авторская модель, записанная на языке построения моделей пакета STATISTICA, выглядит следующим образом:
v11=(b0+b1*(v1)+b2*(v2)+b3*(v3)+b4*(v4)+b5*(v5)+b6*(v6)+b7*(v7)+b 8*(v8)+b9*(v9)+b10*(v10))*(b0+b1*(v1)+b2*(v2)+b3*(v3)+b4*(v4)+b5*(v5) +b6*(v6)+b7*(v7)+b8*(v8)+b9*(v9)+b10*(v10)>0). Здесь и далее b0:b10 -подбираемые в ходе регрессии коэффициенты модели, v11 - зависимая переменная, v1:v10 - независимые переменные.
Эту модель следует читать так: в случае если линейная комбинация независимых переменных дает положительное значение, зависимая переменная равна этой линейной комбинации, в обратном случае зависимая переменная равна нулю. Качество первой авторской модели регрессии (коэффициент детерминации 59,37 %) значительно лучше, чем простой линейной регрессии но несколько хуже, чем в кусочно-линейной регрессии. По всей видимости, сама методика вычисления коэффициентов регрессии при такой форме записи условия неотрицательности зависимой переменной, которая использована в первой авторской модели, дает худшие результаты, чем построение модели кусочно-линейной регрессии, которая также отсекает отрицательные значения для зависимой переменной. В самом деле, количество дней просрочек не может быть отрицательным, в моделях линейной, экспоненциальной, полиномиальной, и логарифмической регрессии это условие не соблюдалось и приводило к значительному количеству ошибок.
Во 2-й авторской модели регрессии была предпринята попытка улучшить качество экспоненциальной модели, показавшей второй по качеству результат после кусочно-линейной регрессии, добавив в него условие неотрицательности зависимой переменной (используются 4 независимые переменные: пол, размер компании, категория заемщика и должность).
v11=(b0+exp(b11+b1*(v1)+b2*(v2)+b3*(v3)+b4*(v4)+b5*(v5)+b6*(v6)+ b7*(v7)+b8*(v8)+b9*(v9)+b10*(v10)))*((b0+exp(b11+b1*(v1)+b2*(v2)+b3*( v3)+b4*(v4)+b5*(v5)+b6*(v6)+b7*(v7)+b8*(v8)+b9*(v9)+b10*(v10)))>0)
Эту модель следует читать так: в случае если экспонента линейной комбинации независимых переменных дает положительное значение, зависимая переменная равна экспоненте этой линейной комбинации, в обратном случае зависимая переменная равна нулю. Качество второй авторской модели регрессии (коэффициент детерминации 64.39%) лучше, чем первой авторской модели регрессии, но всё же хуже, чем в кусочно -линейной регрессии.
Далее в пакете MATLab, с помощью инструмента Neural Networks при обучении с учителем (400 элементов обучающей выборки и 139 элементов контрольной выборки) и проведении предварительной адаптации, 2-х слойная сеть с двусторонней связью: на первом скрытом слое сети 13 сигмоидных нейронов, на 2-м выходном слое - 1 линейный нейрон (данный тип сети является одним из лучших для задач аппроксимации [3]) показала коэффициент детерминации равный 56%. Этот результат не является наилучшим, однако в исследованном примере были использованы только 2 наиболее значимых независимых переменных, возможно, при использовании всех 15 имеющихся характеристик в результате длительных исследований по подбору оптимальной модели нейронной сети в целях создания скоринговых систем можно получить модель превосходящую по своим характеристикам кусочно-линейную функцию, признанную в данном исследовании наиболее подходящей для создания скоринговых моделей.
В табл. 1 представлены результаты оценки различных моделей регрессии в порядке убывания их качества, количественным параметром оценки которого служил коэффициент детерминации.
Результаты оценки моделей регрессии
Название модели Коэффициент детерминации, %
Кусочно-линейная модель 71
2-я авторская модель 64
1-я авторская модель 59
Модель, построенная с помощью нейронных сетей 56
Полиномиальная модель 52
Экспоненциальная модель 45
Логарифмическая модель 41
Модель множественной линейной регрессии на сокращенном наборе данных 41
Модель множественной линейной регрессии на фак-торизованных переменных 38
Модель множественной линейной регрессии на полном наборе данных 33
Наилучший результат показала кусочно-линейная регрессия, узел аппроксимации был определен программой автоматически и точкой переги-
ба является v11=0. Причем все точки, в которых зависимая переменная принимает значения меньше нуля, отсекаются (все коэффициенты модели равны нулю), а в положительной полуплоскости зависимая переменная рассчитывается как линейная комбинация независимых переменных.
Вывод: Согласно проведенным исследованиям, наилучшим методом построения скоринговых моделей является кусочно-линейная регрессия, объясняющая 71,34 % изменений исследуемой переменной. Также хорошими методами являются экспоненциальная и линейная регрессия при выставлении дополнительного условия о неотрицательности зависимой переменной (2-я и 1-я авторские модели).
2. Андреева Г.В. Скоринг как метод оценки кредитного риска // Банковские Технологии. - 2000. - № 6. - С. 14-19.
ОРГАНИЗАЦИЯ СИСТЕМЫ ПРЕДПРОВЕРОЧНОГО АНАЛИЗА - ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ НАЛОГОВОГО КОНТРОЛЯ
Мордовский государственный университет им. Н.П. Огарева,
От результативной контрольной работы налоговых органов по обеспечению полного и своевременного поступления налогов и сборов во многом зависит эффективное функционирование не только региональной экономики, но и устойчивое развитие экономики страны в целом. В связи с этим, в настоящее время, особую актуальность приобретает развитие системы предпроверочного анализа первичной информации о налогоплательщике.
Читайте также: