想法1:
  分成147(3*7*7)类, 后来觉得这样效果不好,后来看了看竞赛要求的也是分别预测,分别评分,而不是一次就把3类的标签都给出
  所有后来我们改进了当时的想法,决定对年龄,性别,学历进行分别预测
 想法2:  
  我们先对所有的单词进行分类,分成比如体育,经济,教育等等,一些大类别,然后看看每个用户搜索的关键词属于哪一类。作为特征
  后来,因为无法确定分为多少类,,所以否定了这个想法。
 想法3:  
   
  Step1:进行文本分词处理,提取出搜索词中的关键词;
  Step2:建立向量空间模型 (1)权值计算(布尔权值,词频权值,TF/IDF,TFC,ITC等方法)
  (2) 向量相似度量(内积,绝对值距离,切比雪夫距离等) ;
  Step3:对文本进行分类(概率分类器,决策树分类器,神经网络分类器等)
  Step4:进行数据测试,根据给定的查询词,首先也对它先分词,提取关键词,然后和一个大类进行相关性测量,
  VSM中的(两个向量的夹角越小说明关联度越大),然后决定出它是属于哪一个类,
  之后再和这个类别下的关键词进行相关性对比,然后逐个决定出人物属性(年龄,性别,学历)
   
  确定了思路之后,我用skleran 这个机器学习包进行了实现。
 初赛思路v1:  
  一 Preprocessing
  1分词 采用结巴分词
  2数据清洗,删掉缺失数据,例如数据中的未知(标签为0)
  二 Feature extraction
   1 countvector:计算词频
  2 tfidfvector: 计算tfidf作为权重值
  3 hashvector: 利用hash 算法将单词映射到向量空间
  三 Feature selection 
  选择特征的数量,也就是数据矩阵的维度。v1没有使用算法,直接指定特征的维度。
  四 Feature union
  初赛中没有使用特征融合
  五 Model selection
  KNN
  SVM 效果最好
  贝叶斯
  六 Model Evaluation and Optimization
  利用准确率衡量分类的结果
   
 初赛思路v2:  
   
  在特征提取的时候,我们担心数据过拟合,所以进行特征选择
  我们的特征选择的方法主要是卡方跟LDA主题模型
  但是经过测试,LDA+TFIDF的效果不如单纯的tfidf
  TFIDF+卡方的效果稍好一点点
  特征提取我们也试过n-gram效果也不是很好
   
   
 最终初赛思路(v2):  
  1.jieba分词
  2.特征提取:tfidf
  3.特征选择:卡方
  4.分类:SVM

github:

https://github.com/zle1992/2016-ccf-data-mining-competition

2016-ccf-data-mining-competition 搜狗用户画像构建的更多相关文章

  1. 【转】4w+1h 教你如何做用户画像

    记得14年开始做用户画像的时候,对于用户画像完全没有概念,以为是要画一幅幅图画,经过两年多的学习和理解,渐渐的总结出了一些方法和技巧,在这里就通过4个W英文字母开头和1个H英文字母开头的单词和大家分享 ...

  2. (转载)2016 CCF大数据与计算智能大赛 开源资料整理

    本文转载自:http://blog.sina.com.cn/s/blog_5399b8660102wxks.html 2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项, ...

  3. 论文翻译:Data mining with big data

    原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...

  4. Datasets for Data Mining and Data Science

    https://github.com/mattbane/RecommenderSystem http://grouplens.org/datasets/movielens/ KDDCUP-2012官网 ...

  5. data mining,machine learning,AI,data science,data science,business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  6. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?

    本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...

  7. 用Mirror,搞定用户画像

    Mirror产品概述 Mirror是专为金融行业设计的全面用户画像管理系统.该系统基于星环多年来为多个金融企业客户构建用户画像的经验,深入契合业务需求,实现对用户全方位全维度的刻画.Mirror内置银 ...

  8. Conference-Web Search and Data Mining

    Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...

  9. Tinghua Data Mining

    Learning Resources 书籍: 期刊: 业界先驱: 开阔视野,掌握业界最新动态. 工具: 数据挖掘是很多学科的综合体: 甭管叫什么名字,归根到底都是数据挖掘: Comprehensive ...

随机推荐

  1. php-fpm打开错误日志的配置

    nginx与apache不一样,在apache中可以直接指定php的错误日志,那样在php执行中的错误信息就直接输入到php的错误日志中,可以方便查询. 在nginx中事情就变成了这样:nginx只对 ...

  2. Linux 远程同步:rsync

    rsync 简介: (1) rsync 是一个远程数据同步工具,可通过 LAN/WAN 快速同步多台主机间的文件(2) rsync 使用所谓的“rsync算法”来使本地和远程两个主机之间的文件达到同步 ...

  3. Oracle应用技术精华教程:管理还原段

    管理还原段 在oracle 9i 之后提供了两种方法来管理还原数据 自动的还原数据管理:oracle 自动管理还原段的创建.分配和优化 手动的还原数据管理:oracle 手动管理还原段的创建.分配和优 ...

  4. oracle非归档模式下的冷备份和恢复

    查看归档的相关信息 SQL> archive log list数据库日志模式             非存档模式自动存档             禁用存档终点            USE_DB ...

  5. 如何在CLI命令行下运行PHP脚本,同时向PHP脚本传递参数?

    <?php/* //命令行输入输出流fwrite(STDOUT,"Enter your name:"); $name = trim(fgets(STDOUT)); fwrit ...

  6. 教你一招解决浏览器兼容问题(PostCSS的使用)

    我们在处理网页的时候,往往会遇到兼容性的问题.在这个问题上分为两个大的方向:屏幕自适应&浏览器兼容.而屏幕自使用的方法有许多,包括框架之类的,但是浏览器的兼容却没有一个号的框架.在我们日常处理 ...

  7. Kconfig和Makefile的修改

    Kconfig文件的作用 内核源码树的目录下都有两个文件Kconfig(2.4版本是Config.in)和Makefile.分布到各目录的Kconfig构成了一个分布式的内核配置数据库,每个Kconf ...

  8. Size Balanced Tree

    Size Balanced Tree(SBT)是目前速度最快的平衡二叉搜索树,且能够进行多种搜索操作,区间操作:和AVL.红黑树.伸展树.Treap类似,SBT也是通过对节点的旋转来维持树的平衡,而相 ...

  9. 【linux系列】vmware12pro安装centos7

    安装参考:http://blog.csdn.net/guin_guo/article/details/49403889 安装完成之后ip还是不成功无法连接网络: 进入/etc/sysconfig/ne ...

  10. Excel 中如何快速统计一列中相同字符的个数(函数法)

    https://jingyan.baidu.com/article/6d704a132ea17328da51ca78.html 通过excel快速统计一列中相同字符的个数,如果很少,你可以一个一个数. ...