BNP Paribas Cardif Claims Management
2月20日:
查看任务介绍,二分类问题,评价标准logloss
下载数据
2月21~27日:
查看数据组成,标识分类变量、离散变量、连续变量。
发现连续数据有大量非随机空缺(占总量一半),主要集中在v2相关与v8相关列
根据空缺相关性,可将feature分为6组:
g1-v8相关列,g2-v2相关列,g3-与v2v8均不相关的稀疏列,g4-无缺值连续变量,gd-离散变量,gc-分类变量
标签样本不均衡,约75%的y==1,25%的y==0
查看相关性。
2月28日~3月3日:
考虑对缺值数据(feature稀疏样本)进行模型,因feature较少,实现将较快。
对分类变量one-hot赋值。
尝试logistic、linearSVC(no dual)拟合效果较差,大量标签为预测为1类,几乎不出现0类预测
尝试kernelSVC,样本数太大,核矩阵过慢
尝试较浅层Random Forest,同样无法有效辨识类0
尝试xgb,极简易调参后,对feature稀疏样本4-folds cv约0.450,在lb上表现估计约0.457上下
(现在看来有过拟合的嫌疑,因为对v56等多值分类变量进行了过细的处理)
进一步探索:
1、大规模多模型调参
2、对分类变量的one-hot进行处理,如使用logistic regression、navie bayes等,聚合成一个新的feature
3、对模型进行average或者logistic regression处理
4、对某些明显有相关性的categorical-one-hot进行单列处理,消除ordinal假设
5、尝试k-means,和KNN(需考虑如何消除量纲影响)
对稀疏特征的样本,尝试以下的做法
1、连续变量+离散变量+序列化分类变量
2、连续变量+离散变量+序列化分类变量+特殊单列序列化one_hot
3、连续变量+离散变量+序列化分类变量+全体单列序列化one_hot后logistic系数
4、连续变量+离散变量+伯努利序列化分类变量+特殊单列序列化one_hot+全体单列序列化one_hot后logistic系数
3月29日
伯努利化+特殊单列one_hot有一定作用,logistic系数似乎反而没起到什么影响(在gbdt中),可能参数调得不好
调参结束,et和xgc模型基本在5 folds的前提下能达到0.459xx的cv
上交LB后得分0.458xx
然而对6个模型简单平均后,其得分仅有0.456xx,未达到预期目的
看讨论区排行前列的人说,创造了上千个特征进行训练,并且使用一些"secret tweaks"使得训练时间为30min,10folds
(laptop配置8核,16g内存,40g交换内存)这个时间太令人震惊!看结束后对方是否会有一个完整的方法分享
下一步考虑的事情:要在自己的模型上完善,一个是对稀疏的部分再进行细致稳定的调参, 把稀疏的模型结果代入到whole data的模型中
另外,考虑logistic feature是否真的不管用,要不要也试一下linear feature或者linear SVC feature呢?
还有,对方创造的上千个特征,很可能就是在稀疏样本仅有的那几个特征中得出的,看看到时候能不能大规模搞些特征出来。
BNP Paribas Cardif Claims Management的更多相关文章
- Java 7 中 NIO.2 的使用——文件递归操作
众所周知,递归编程是一项有争议的技术,因为它需要大量的内存,但是它能简化一些编程任务.基本上,一个递归操作都是程序调用自己传递参数修改的值或者参数传递到当前的程序循环中.递归编程通常用来计算阶乘斐波那 ...
- 7 Exciting Uses of Machine Learning in FinTech
https://rubygarage.org/blog/machine-learning-in-fintech Machine learning (ML) has moved from the per ...
- Creating Custom Connector Sending Claims with SharePoint 2013
from:http://blogs.msdn.com/b/security_trimming_in_sharepoint_2013/archive/2012/10/29/creating-custom ...
- MySQL vs. MongoDB: Choosing a Data Management Solution
原文地址:http://www.javacodegeeks.com/2015/07/mysql-vs-mongodb.html 1. Introduction It would be fair to ...
- Java Memory Management(1)
Java Memory Management, with its built-in garbage collection, is one of the language’s finest achiev ...
- SharePoint Adventures : Using Claims with Reporting Services
Cannot convert claims identity to a windows token. This may be due to user not logging in using win ...
- Low overhead memory space management
Methods, apparatus, and systems, including computer programs encoded on a computer storage medium, m ...
- Operating system management of address-translation-related data structures and hardware lookasides
An approach is provided in a hypervised computer system where a page table request is at an operatin ...
- Lock-less buffer management scheme for telecommunication network applications
A buffer management mechanism in a multi-core processor for use on a modem in a telecommunications n ...
随机推荐
- Android目录结构(详解)
Android目录结构(详解) 下面是HelloAndroid项目在eclipse中的目录层次结构: 由上图可以看出项目的根目录下共有九个文件(夹),下面就这九个文件(夹)进行详解: 1.1src文件 ...
- HihoCode-1675-稀疏矩阵乘积
上来先一顿暴力,结果70分就超时了. 然后意识到稀疏矩阵,有很多0,如果c[i][j] != 0,那么一定存在至少一个k满足a[i][k] != 0 && b[k][j] != 0; ...
- 爬虫时伪装header信息
在爬虫时,一般需要伪装Agent信息,放在header中 1.header不是必传参数,在需要的时候进行伪装 2.header = {"User-Agent": "Moz ...
- Time Machine 备份mac系统
USB外接移动硬盘的方式来熟悉Time Machine,体会它带给我们的便利.O(∩_∩)O~~通过USB连接移动硬盘到MacBook Pro,如图所示 2 将移动硬盘连接到 Mac 时,系统有时会询 ...
- win7图片只显示图标不显示预览图解决方案
问题描述: win7上图片只显示图标,不显示缩略图:不管是调节小图.中图还是大图或者其他均不显示:而且这种情况下使用截图工具截下来的图片都不自动带上扩展名:情况如下图: 解决方案: 打开计算机-> ...
- spring提供的事务配置--纯注解
spring提供的事务--纯注解 模拟转账业务 ,出错需要事务回滚,没错正常执行 事务和数据库技术都是spring的内置提供的 --------dao包--------------- IAccoun ...
- Selenium&Pytesseract模拟登录+验证码识别
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...
- Geohash介绍
Geohash介绍 Geohash是一种地址编码,能把二维的经纬度编码成字符串,某一区域范围内的经纬度是一致的,其中有编码长度控制区域的范围 精度参考 使用场景 实时LBS应用 LBS应用中,搜索某某 ...
- 查看python库文档
安装完python第三方库以后,经常需要查询其文档,其实python就自带文档查看器.可以查看所有内置库和第三方库的文档,虽然不是很详尽,但是总比没有的好. 在命令行窗口 python -m pydo ...
- Unity中使用C#的null条件运算符?.的注意事项
Introduction: 在C#6及以上版本中,加入了一项特别好用的运算符:Null条件运算符?.和?[]可以用来方便的执行判空操作,当运算符左侧操作数不为null时才会进行访问操作,否则直接返回n ...