下面的内容都是针对数据源测试的一些可能得问题:
1、请描述你在开发和执行数据测试流程时的具体步骤。
确定样本(对齐样本与时间,去除假样本)——确定特征(确认目前特征)——数据信息(返回的数据字典、收费方式、底层数据:特征、分数)——数据清洗(缺失值替换)——数据训练形成报告。
2、如何确定数据产品在风险模型中的潜在价值和适用性的?
AUC、IV、相关性、性价比、数据产品背景和领域
3、请详细描述你负责的10+数据源上线解析的过程。
根据三方数据公司返回的数据产品报表,自动集成至公司代码库。
4、在模型运行过程中,你进行了哪些监控和优化工作?
- 建立dashbord看板,监控不同数据源的数据缺失分布
- 编写监控代码,在linux上自动执行任务,定期更新报告
5、如何评估模型的效果和准确性?
线上效果与线下效果一致评估
6、在评估过程中,你发现了哪些可以改进的地方?是如何进行优化的?
网络图展示各个数据产品之间的相关性,非线性相关去看相关性。
7、请详细描述你在评估这些变量在优质、中间、次级客群上的识别效果时的具体方法。
在数据测试的时候,主要是利用mob3_ever10去看数据的效果,此时是不会划分客群的。这个时候其实主要还是根据违约风险去看数据源的优劣的。真的付费接入数据之后一般会选择贷前、贷中建立的特征以及不同客群使用的模型是不一致的。而且还是要看分箱差异性的。
8、贷前贷中的标签模型差异
-
贷前模型:标签主要基于借款人的还款表现,如违约、逾期等。
-
贷中模型:标签主要基于借款人在贷款期间的行为变化,如行为评分、滚动率等。