2月20日: 查看任务介绍,二分类问题,评价标准logloss 下载数据 2月21~27日: 查看数据组成,标识分类变量.离散变量.连续变量. 发现连续数据有大量非随机空缺(占总量一半),主要集中在v2相关与v8相关列 根据空缺相关性,可将feature分为6组: g1-v8相关列,g2-v2相关列,g3-与v2v8均不相关的稀疏列,g4-无缺值连续变量,gd-离散变量,gc-分类变量 标签样本不均衡,约75%的y==1,25%的y==0 查看相关性. 2月28日~3月3日: 考虑对缺值数据(f…