@ARTICLE{26583204_454917884_2021, author = {Е. В. Румянцева and К. К. Фурманов}, keywords = {, прогнозирование, анализ наступления событий, остатки Кокса–Снеллцензурирование}, title = {

Использование вневыборочных остатков Кокса–Снелл при прогнозировании наступления событий

}, journal = {Бизнес-информатика}, year = {2021}, number = {1 Vol.15}, pages = {7-18}, url = {https://bijournal.hse.ru/2021--1 Vol.15/454917884.html}, publisher = {}, abstract = {      В статье рассматривается задача оценивания прогнозной силы модели наступления события по вневыборочным данным. Данные о времени наступления событий, как правило, цензурированны справа: ожидаемое событие часто не уступает произойти за время наблюдения, из-за чего фиксируется только минимальное возможное значение прогнозируемой величины. В результате стандартные меры точности прогноза, такие как средняя абсолютная или средняя квадратическая ошибка, оказываются неприменимыми, а для измерения качества применяются коэффициенты ранговой корреляции:C-индекс Харрелла, коэффициенты Уно и Сомерса. Эти меры не отражают близости прогнозов к действительным значениям, а характеризуют только согласованность ранжировок - способность модели отличать наблюдения, в которых ожидаемое событие происходит относительно быстро, от тех наблюдений, в которых время ожидания относительно велико, из-за чего коэффициенты ранговой корреляции могут принимать высокие значения даже при сколь угодно большой систематической ошибке прогноза. Кроме того, сведение качества прогноза к корреляции или даже близости прогнозируемого и действительного значений малоудовлетворительно: время наступления редко удается оценить с определенностью, и при прогнозировании интерес представляет не только точечная оценка момента наступления, но и оценка закона распределения объясняемой величины целиком. В настоящей статье при выборе прогнозной модели предлагается дополнять сравнение коэффициентов ранговой корреляции анализом остатков Кокса-Снелл, рассчитанных для вневыборочных данных (контрольных или валидационных). Для визуального анализа предлагается применять график оценки интегрального риска остатков, а в качестве численной характеристики согласованности модели с вневыборочными данными - расстояние Колмогорова между наблюдаемым распределением остатков и экспоненциальным распределением с единичным средним, которое соответствует идеально специфицированной модели. Предлагаемый подход иллюстрируется примером выбора прогнозной модели для времени досрочного погашения договоров ипотечного кредитования.}, annote = {      В статье рассматривается задача оценивания прогнозной силы модели наступления события по вневыборочным данным. Данные о времени наступления событий, как правило, цензурированны справа: ожидаемое событие часто не уступает произойти за время наблюдения, из-за чего фиксируется только минимальное возможное значение прогнозируемой величины. В результате стандартные меры точности прогноза, такие как средняя абсолютная или средняя квадратическая ошибка, оказываются неприменимыми, а для измерения качества применяются коэффициенты ранговой корреляции:C-индекс Харрелла, коэффициенты Уно и Сомерса. Эти меры не отражают близости прогнозов к действительным значениям, а характеризуют только согласованность ранжировок - способность модели отличать наблюдения, в которых ожидаемое событие происходит относительно быстро, от тех наблюдений, в которых время ожидания относительно велико, из-за чего коэффициенты ранговой корреляции могут принимать высокие значения даже при сколь угодно большой систематической ошибке прогноза. Кроме того, сведение качества прогноза к корреляции или даже близости прогнозируемого и действительного значений малоудовлетворительно: время наступления редко удается оценить с определенностью, и при прогнозировании интерес представляет не только точечная оценка момента наступления, но и оценка закона распределения объясняемой величины целиком. В настоящей статье при выборе прогнозной модели предлагается дополнять сравнение коэффициентов ранговой корреляции анализом остатков Кокса-Снелл, рассчитанных для вневыборочных данных (контрольных или валидационных). Для визуального анализа предлагается применять график оценки интегрального риска остатков, а в качестве численной характеристики согласованности модели с вневыборочными данными - расстояние Колмогорова между наблюдаемым распределением остатков и экспоненциальным распределением с единичным средним, которое соответствует идеально специфицированной модели. Предлагаемый подход иллюстрируется примером выбора прогнозной модели для времени досрочного погашения договоров ипотечного кредитования.} }