前端业务指标模型监控

作者:研究猿

模型监控

模型监控不但包括模型样本外评估的所有指标,还包括以下指标用于模型的事前和事后监控,及时发现问题。模型评估的作用在于查看模型在预测能力上是否有退化。模型监控主要用于发现数据问题和异常行为,比如外部端口数据缺失、策略漏洞或被绕过、平台是否被黑产攻击中。

01、前端监控—业务指标

业务指标中的通过率是监控的重点。产品准入政策变更、渠道引流策略的变化、数据源统计口径或数据不稳定都可能导致通过率发生波动。过高的通过率会增大业务风险,这可能由于数据中的负分项变量返回了大量的缺失值,这在黑名单产品中会出现。过低的通过率则提示客群在变化或数据均置有明显位移,如图5-8所示。

图5-8通过率监控

除此之外,日志数据也是重要的监控数据源,比如数据端口返回值情况等。

02、前端监控—评分分布稳定性

评分分布稳定性报告的目的在于生成一个能够代表总体的分值分布随时间变化的指数,这种情况出现的原因在于评分卡开发时使用的是历史数据,而新进客户的数据得出的评分描述的是客户的当前行为,比较当前行为和历史行为的差异可以得到差异。一般来说,差异的产生可能在于:

1)客户群体发生变化,新客户进入,老客户流失,都将使得客群发生变化;

2)市场发生变化,例如经济周期、宏观环境的变化;

3)行业发生变化,例如新的法律法规的出现。

为保证评分卡能够被正确使用,需要监测评分分布稳定性。表5-3是评分稳定性示例。

表5-3评分稳定性示例

表中可以直观观察到分值区间下建模客户和新进客户在各个分值段上的差异,例如可以看出建模时高分值客户正在往低分值进行移动。这里PSI(群体稳定性系数)的计算方法为:

PSI指数越大说明不同时点评分分布差异越大,反之则小。一般来说,PSI小于0.1时说明不同时点评分差异小;在0.1~之间时,说明有一定差异,需要注意;大于0.25时,说明差异较大,需要进行调整。

除此之外可以将每个时点监控的PSI指标绘制为时序图,了解趋势变化情况,如图5-9所示。

图5-9PSI示例

03、前端监控-特征分布稳定性

评分分布稳定性描述总评分稳定性,当评分稳定性较差时,一定是某些或全部变量的分布稳定性出现了异常,所以需要进行特征分布稳定性监控以了解是哪些变量的分布差异导致了总评分稳定性差异。表5-4是特征分布稳定性的一个示例。

表5-4特征分布稳定性例

居住属性变量中,计算出建模客户与新进客分布差异,再乘以水平分值得到分数差异,汇总后可得到总差异。当变量差异为正时,说明较建模客户,新进客户分布往高分分布移动;当变量差异为负时,说明较建模客户,新进客户分布往低分分布移动。

04、后端监控-评分正确性

在监控模型稳定性的同时,模型对好坏客户的预测正确情况也应纳入到模型监控中。首先可对评分卡分数与好坏客户率的关系进行分析。具体实施时,在新的时间段进件的客户统计出其评分分值和定义的好坏客户,形成如表5-5所示报表。

表5-5评分正确性报表例

在报表基础上,绘制出好坏客户分布,如图5-10所示(此图无需在系统中绘制)。

图5-10好坏客户在评分区间的分布例

图中横轴为评分区间,纵轴为好/坏客户占比。上例中分值低代表坏客户可能性大,而好坏客户分布有着明显的差别。上图中,好坏客户在不同分值下分布重叠得较少,说明模型对好坏客户有着很好的区分能力;若重叠得较多,说明模型对好坏客户区分能力不佳,需要对模型进行调整。

此外,评分正确性指标可以按照指定时间间隔对相应进件客户进行分析,已观测评分正确性指标随时间变化的趋势,如图5-11所示。

图5-11评分正确性随时间变化情况

图5-11中,横轴代表评分区间,纵轴代表区间下的坏客户率。不同颜色的趋势线表示不同时间段统计的评分正确性。该图可以直观地展示不同时间段评分卡在不同分值客户下的坏客户率情况,像图中紫色线(年3月进件客户)说明该月分值正确性分布较其他时间内变化较大,尤其是~分区间内坏客户数量较多,需要注意该月份异常的原因。

05、后端监控-变量有效性

若评分分布进行正确性分析时发现了评分正确性异常后,还要


转载请注明:http://www.aierlanlan.com/tzrz/1211.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了