最近在做金融科技建模的时候,字段里面很多缺少值得时候,模型对于新用户的预测会出现很大的不稳定,即PSI较大的情况. 虽然我们依据字段IV值得大小不断的在调整字段且开发新变量,但是很多IV值很大的字段直接用平均值.或者0代替显然不够合理. 所以,我们在尝试把字段缺失值当作需要预测的值,把该字段不缺失的当作y,用其他字段当作X,去预测该字段缺失值得值.不同于机器学习的回归和分类预测. 这里的预测结果是一个具体的值,它的范围从负无穷到正无穷都有可能. 数据直接读存于Hive,代码如下: import…