没有监控的模型,就像没有指南针的钟表,失去了控制。我们如何通过数据的变化来判断模型是否正常运行,以减少风险?作者结合自己的经历,总结如何做好并用好风控模型监控,希望对你有所帮助。
使用没有监控的模型,就像使用没有指针的钟表,它可能在工作,但你怎么知道呢?
模型监控就是模型上线之后,根据数据的变化来判断模型是否正常运行。
兹事体大。
一、为什么重要
“最近通过率下降了,怎么办?”
“最近逾期率上升了,怎么办?” 或者,“最近逾期率没什么变化,真开心。”
当你不做监控时,上面是你可能发出的提问。这些问题 low 不 low,你自己说。
报表体系的搭建对于任何一家金融机构都尤为重要,对于风控模型,上线部署后会因内外部各种因素引起模型分数偏移,甚至出现错误。
为了能在第一时间发现问题,我们需要对模型进行动态监控。有一套相对完整的报表系统,能对模型的有效性、稳定性做到及时的掌控,以确保模型如期运行。否则,应启动迭代新的模型。
在这之后,你的问题会变成,
“最近有个渠道客群模型均分下降了十几分,通过率低了很多,要不要下线这个渠道?”
“最近逾期率没什么变化,但模型分 KS 下降了 5 个点了,是不是模型有问题了?”
你应该意识到,报表让你提出了更针对性的问题,并指向你去解决问题。
二、如何做监控
我们都知道风险表现是滞后的,用户申请之后需要一个表现期你才能知道这个人是好的还是坏的。模型同学往往重点关注模型效果,需要先有 label,但在没有 label 之前,肯定也不能放任不管。以需不需要 label 为界,我们可以把监控分为前端监控和后端监控。
申请时我们能获取得到的东西,可以用来做前端监控,例如,申请量、通过率、客群分数分布等。如果我们更进一步,关注策略的稳定性,拒绝流的监控就很重要。除此之外,我们,还应该关注重要特征的监控。
这一步,是为了在第一时间监控到线上发生了什么,以及我们的客户是什么人。申请量、通过率的稳定,最让人省心,出现较大波动,则应对其原因有基本的了解,是既定的渠道推广,还是什么不知名的原因。通过率最为重要,如其发生非预期的变化,就要去看拒绝流的哪个环节出现问题,拒绝流是决策引擎中规则执行的顺序,例如,先过黑名单、再过强规则、再过模型,检查这些比例是否稳定合理。模型通过率的变化是客群分数分布变动导致的,又可以溯源至特征的分布。
而后端监控主要是关注模型性能和资产表现,最直接对应的就是 KS 和坏账率 PD。后端监控中应该统计出每个分数段的人数和坏客户比例,这才是和决策直接相关的东西。
资产质量永远是最重要的,放出去的钱有多少能回来本质上都取决于资产的质量。后端监控当然很有用,但别忽略了前端监控,客群的均分、收入、征信表现等 x,或者 f(x),都一定程度上体现了 y。
前后端,是更有效率和更准的问题。
模型和策略的共同点是都很关注人,异同点则是前者是模型视角,关注评分,后者是资产视角,关注钱。
三、如何读监控
数据分析的三板斧,看趋势、看对比、看细分。解读监控报表亦如此。光有一个数据是无意义的,比较才能使其有洞见,怎么比?和过去比,和其他的比,分开了自己比。
趋势分析:关注业务量、通过率、逾期率、KS 等指标逐月甚至是逐日的变化趋势。申请量增长显著的话,还得保证资金储备充足。每个关键指标趋势变化的拐点都值得注意,不一定存在问题,但至少应予以思考。
对比分析:分为纵向比较和横向比较,前者是自己和自己比,后者是自己和别人比。纵向对比还包括环比和同比,环比就是本期和上期比,例如这个月和上个月比,同比是本期和上一周期的同期比,例如今年 618 和去年 618 比。很多数据指标是有周期性的。横向比较就是跟行业其他平台比一比,这个很有用,出问题了是行业问题还是你自己的问题,大面上有这个横向比较就差不多知道了。
细分分析:选取一些关键维度,如渠道、年龄、地域、收入等,去关注这些维度不同客群各指标的差异。贷前最主要的一个维度就是获客渠道,要密切关注各渠道的转化和风险。好渠道是用来拓展业务的,坏渠道只会增加损失。数据分解,定义哪些是问题,哪些不是问题,或者说,哪些是机会,哪些不是。如果你的业务规模和业务模式总是一成不变的,也许不需要分解。然而,这种情况是极少的。归因分析的基础就是细分。
因为你要这样读监控,你就自然知道如何做监控。有效的解读监控,让你关注到真正的问题点,而后才能解决问题。
四、采取行动
如果模型和策略同学不按时审阅监控结果,那工作也是很难开展的。如果审阅监控结果后,不采取行动,那工作是无意义的。
最终的行动就只有两个,一是调整策略,一是迭代模型。
通过率下降、风险上升,是最恶劣的情况。策略调严是没办法的第一步,但这没什么用,因为通过率已经很低了。大概率是模型失效了,也许是数据质量导致的,也许就是模型部署有问题,这肯定要迭代模型。
另外三种 case 呢,通过率上升、风险下降,皆大欢喜;通过率上升、风险上升,通过率下降、风险下降,就有点难了。三种行动,调整策略,迭代模型,什么都不做,选哪个?
我们都知道做产品增长呢有一个“北极星指标”,也叫“唯一关键指标”(OMTM,One metric that matters),就是产品现阶段最关注的指标。信贷业务的北极星指标是什么呢,更常见的说法可能是在贷余额。招商银行还曾经把 app 月活用户数当北极星指标。那如果要给模型定一个 OMTM 呢?不管是在贷余额还是月活,我们都是要越多越好的,怎么多起来,就是要模型足够好。模型足够好,通过率才能足够高,营销才敢放开。那模型的 OMTM 最好的选择就是 KS。
现在好办了,关注这个 OMTM,不达标就行动。例如模型 KS 下降 10 个点,或者下降比例 30%,就考虑去迭代模型。
说的是考虑迭代模型,不是说必须。前面的分析应该让你对下降原因有了一些了解,结合起来看。
明确核心指标有助于我们在复杂的大盘数据中找到重点,快速做出决策。特别是在同时订阅多个指标时,有些指标正向,有些负向,就可以重点关注核心指标,舍弃不太重要的指标。采取行动会更迅速且更具共识。
五、不太合理的现象
模型同学往往过于关注效果监控,而忽略流量情况。这个是视角问题,只看局部不好。即使不需要你去了解业务,你最起码也得归因吧。
因为你不用做决策,所以不去了解真正的问题,然后把真实的工作做成了 kaggle 比赛的样子。非常需要引起大家的注意。
你会发现你天天在解决问题、解决问题,问题在于这都是别人告诉你的问题,你什么时候去发现问题呢?
很多模型同学都不管这些,待在所谓的算法工程师的 title 里面玩弄所谓的算法。假如你对结果负责,你就不会这样了。
很多企业愿意毫不犹豫地增加千万资金接入数据,而不愿意花费几十万来培训员工提升综合的风险管理能力。只能说,这就很神奇。
六、经验分享
一般来说,在模型训练好上线后,模型能力会不断衰减,呈波动状下行。可以设定一个阈值,当模型的 AUC 或者 KS 低于这个阈值的时候,重新迭代模型。
如果模型没有随时间衰减,B 卡可能会这样,迭代模型光靠更新样本就意义不大,这时候应该做的是,深化信贷特征的挖掘。
如果模型效果衰减很厉害,实时模型要注意特征计算层有没有出现问题,离线模型除特征跑批出现操作异常外,一般都是业务变化导致客群发生了变化。别老想着模型打分有问题。
线上如果出现问题,很难直接指向模型,因为复杂性其解释权都在模型同学手上。策略同学不要听他们的解释。问题容易出在模型上面,但不是说“锅”都是模型同学的。
如果模型和策略是分开的,还是配置个模型验证团队吧。
贷前因为要及时了解流量变化,可以用较短的表现期。
最好的监控工具是 Excel,最强大的数据分析功能是透视表。
模型监控,真的是一个蛮兹事体大的事情。设想我是出钱的老板,我更相信被监控稳定运行的普通模型,而不是“裸奔”的大数据模型。
最后强调下,报表不是越多越好的,重要的是有价值。好的报表是解决你的问题,而不是增加你的问题。
总而言之,监控那些应当被监控的事情,并在发现问题时采取恰当的措施。
为我投票
我在参加人人都是产品经理2022年度作者评选,希望喜欢我的文章的朋友都能来支持我一下~
点击下方链接进入我的个人参选页面,点击红心即可为我投票。
每人每天最多可投35票,投票即可获得抽奖机会,抽取书籍、人人都是产品经理纪念周边和起点课堂会员等好礼哦!
专栏作家
雷帅,微信公众号:雷帅快与慢,人人都是产品经理专栏作家。风控算法工程师,懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单,继而发现风控让人生更自由。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
推荐阅读白云先生 人工智能,白云先生 人工智能招聘
p人工智能 gtp人工智能
阿里云人工智能?阿里云人工智能平台
安卓 人工智能 游戏(安卓 人工智能 游戏手机)
sony人工智能(索尼 人工智能)
安康人工智能招生 安康人工智能招生简章
安徽人工智能 安徽人工智能企业
poc人工智能?人工智能pca