2016-ccf-data-mining-competition 搜狗用户画像构建
| 想法1: | |
| 分成147(3*7*7)类, 后来觉得这样效果不好,后来看了看竞赛要求的也是分别预测,分别评分,而不是一次就把3类的标签都给出 | |
| 所有后来我们改进了当时的想法,决定对年龄,性别,学历进行分别预测 | |
| 想法2: | |
| 我们先对所有的单词进行分类,分成比如体育,经济,教育等等,一些大类别,然后看看每个用户搜索的关键词属于哪一类。作为特征 | |
| 后来,因为无法确定分为多少类,,所以否定了这个想法。 | |
| 想法3: | |
| Step1:进行文本分词处理,提取出搜索词中的关键词; | |
| Step2:建立向量空间模型 (1)权值计算(布尔权值,词频权值,TF/IDF,TFC,ITC等方法) | |
| (2) 向量相似度量(内积,绝对值距离,切比雪夫距离等) ; | |
| Step3:对文本进行分类(概率分类器,决策树分类器,神经网络分类器等) | |
| Step4:进行数据测试,根据给定的查询词,首先也对它先分词,提取关键词,然后和一个大类进行相关性测量, | |
| VSM中的(两个向量的夹角越小说明关联度越大),然后决定出它是属于哪一个类, | |
| 之后再和这个类别下的关键词进行相关性对比,然后逐个决定出人物属性(年龄,性别,学历) | |
| 确定了思路之后,我用skleran 这个机器学习包进行了实现。 | |
| 初赛思路v1: | |
| 一 Preprocessing | |
| 1分词 采用结巴分词 | |
| 2数据清洗,删掉缺失数据,例如数据中的未知(标签为0) | |
| 二 Feature extraction | |
|  1 countvector:计算词频 | |
| 2 tfidfvector: 计算tfidf作为权重值 | |
| 3 hashvector: 利用hash 算法将单词映射到向量空间 | |
| 三 Feature selection  | |
| 选择特征的数量,也就是数据矩阵的维度。v1没有使用算法,直接指定特征的维度。 | |
| 四 Feature union | |
| 初赛中没有使用特征融合 | |
| 五 Model selection | |
| KNN | |
| SVM 效果最好 | |
| 贝叶斯 | |
| 六 Model Evaluation and Optimization | |
| 利用准确率衡量分类的结果 | |
| 初赛思路v2: | |
| 在特征提取的时候,我们担心数据过拟合,所以进行特征选择 | |
| 我们的特征选择的方法主要是卡方跟LDA主题模型 | |
| 但是经过测试,LDA+TFIDF的效果不如单纯的tfidf | |
| TFIDF+卡方的效果稍好一点点 | |
| 特征提取我们也试过n-gram效果也不是很好 | |
| 最终初赛思路(v2): | |
| 1.jieba分词 | |
| 2.特征提取:tfidf | |
| 3.特征选择:卡方 | |
| 4.分类:SVM | 
github:
https://github.com/zle1992/2016-ccf-data-mining-competition
2016-ccf-data-mining-competition 搜狗用户画像构建的更多相关文章
- 【转】4w+1h 教你如何做用户画像
		
记得14年开始做用户画像的时候,对于用户画像完全没有概念,以为是要画一幅幅图画,经过两年多的学习和理解,渐渐的总结出了一些方法和技巧,在这里就通过4个W英文字母开头和1个H英文字母开头的单词和大家分享 ...
 - (转载)2016 CCF大数据与计算智能大赛 开源资料整理
		
本文转载自:http://blog.sina.com.cn/s/blog_5399b8660102wxks.html 2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项, ...
 - 论文翻译:Data mining with big data
		
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
 - Datasets for Data Mining and Data Science
		
https://github.com/mattbane/RecommenderSystem http://grouplens.org/datasets/movielens/ KDDCUP-2012官网 ...
 - data mining,machine learning,AI,data science,data science,business analytics
		
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
 - 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
		
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
 - 用Mirror,搞定用户画像
		
Mirror产品概述 Mirror是专为金融行业设计的全面用户画像管理系统.该系统基于星环多年来为多个金融企业客户构建用户画像的经验,深入契合业务需求,实现对用户全方位全维度的刻画.Mirror内置银 ...
 - Conference-Web Search and Data Mining
		
Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...
 - Tinghua Data Mining
		
Learning Resources 书籍: 期刊: 业界先驱: 开阔视野,掌握业界最新动态. 工具: 数据挖掘是很多学科的综合体: 甭管叫什么名字,归根到底都是数据挖掘: Comprehensive ...
 
随机推荐
- ios错误大全
			
/读取数据库数据 -(void)movethesqlitefile{ NSString *sourcepath=[[NSBundle mainBundle]pathForResource:@" ...
 - IIS禁止xml文件访问
			
今天在出现数据库账号信息泄露的时候,突然想到xml文件里面放着很多信息,而且网页能够直接访问到,这就很有问题了 开始的时候,也在IIS网站那里看到请求筛选这个设置,开始还以为不能加呢,还是同事说的.
 - jquery单选框radio绑定click事件实现和是否选中的方法
			
使用jquery获取radio的值,最重要的是掌握jquery选择器的使用,在一个表单中我们通常是要获取被选中的那个radio项的值,所以要加checked来筛选,比如有以下的一些radio项: 1. ...
 - <转>与EM相关的两个算法-K-mean算法以及混合高斯模型
			
转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/ ...
 - web基础---->java邮件的发送
			
这里记录一下关于java邮件发送代码的编写.你在我身边也好,在天边也罢,想到世界的角落有一个你,觉得整个世界也变得温柔安定了. java邮件的发送 一.直接贴出代码,如下: package com.c ...
 - 设计模式之模板方法模式(Java实现)
			
"那个,上次由于我老婆要给我做饭,所以就没有说完就走掉了...这个那个".这次和以前一样,先来开场福利(工厂方法模式已被作者踹下场).由美女抽象工厂介绍一下适用场景~大家欢迎 抽象 ...
 - c# Sockect 通信
			
1.Server using System; using System.Collections.Generic; using System.Text; //添加Socket类 using System ...
 - 纯HTML自动刷新页面或重定向(http-equiv属性的refresh)
			
refresh 属性值 -- 刷新与跳转(重定向)页面 refresh出现在http-equiv属性中,使用content属性表示刷新或跳转的开始时间与跳转的网址 refresh示例一:5秒之后刷 ...
 - 解读 Android TTS  语音合成播报
			
随着从事 Android 开发年限增加,负责的工作项目也从应用层开发逐步过渡到 Android Framework 层开发.虽然一开始就知道 Android 知识体系的庞大,但是当你逐渐从 Appli ...
 - spring+springMVC+Mybatis 中使用@Transcational方式管理事务的配置方法
			
springMVC 中,事务通常都在service层控制,当然controller层也可以用事务,只要配置配对,但通常不建议直接在controller层配事务,controller的作用是管理参数以及 ...