项目简述:

为了进行更加精准的营销, 利用数据挖掘相关算法, 利用开放API或自行编写爬虫获得新浪微博, 知乎等社交网络(可能需要破解验证码)中用户所发布的数据, 利用数据挖掘的相关算法进行分析, 从大规模的用户群体中, 分别找出其中具有海淘或母婴购物意向的用户

使用语言:

java

工具:

eclipse

项目过程论述:

1.收集新浪微博用户的数据

2.对这些用户数据进行分析,判断其是否具有母婴的购物意向。

3.对这些具有母婴购物意向的用户进一步分类,分成衣食住行四类。

4.给分好类之后的用户进行推荐相应的母婴商品。

工作流程图如图所示:

----------------------------------------------------------------------------------------------

过程1-----收集新浪微博用户的数据

目的:收集每个用户至少300条微博,不足收集全部,太少则放弃。

收集工具:八爪鱼收集器

收集方法:按照关键词收集,利用新浪微博强大的搜索引擎。

收集规则:

收集结果(存放到mysql):

-------------------------------------------------------------------------------------------------------------------------------------------------------------

过程2-----对收集到的新浪微博用户进行分析,判断其是否具有母婴的购物意向

目的:对一个用户分析,判断是/否具有母婴购物意向

方法:使用向量空间模型的余弦相似度,即两个向量之间的夹角越小,则余弦值越大,这两个向量就越相似

实现过程:

前提:收集数据的时候收集两部分数据,一部分人工判断已知具有母婴购物意向,另一部分是未知购物意向的用户。

1.将每个用户的向量都抽象成N维向量。

方法:参考石延君的博客参考石延君的博客http://shiyanjun.cn/archives/548.html

具体如下:

1)先找出能代表这个用户微博的关键词,将这个用户的微博都存储在一个txt文件中,大致过程如下

2)找出特征向量后,给特征向量的每一维都赋予权重,可以得到初步的N维具有权重的向量。

3)对N维向量进行归一化,直接利用libsvm的scale函数即可(可以参考libsvm的使用方法)。

2.计算未知用户向量与已知购物意向用户向量之间的余弦相似度,如果超过0.5,则认为其是相似的,则有理由认为这些未知用户是具有母婴购物意向的。

---------------------------------------------------------------------------------------------------------------------------------------------------

过程3--------对分析出来具有母婴购物意向的用户进一步分类,分成衣食住行四类

理论基础:使用libsvm来分类

训练集是预先收集好的,分成衣食住行四类的新浪微博用户,带预测集是过程1和2分析出来的具有母婴购物意向的用户。

-----------------------------------------------------------------------------------------------------------------------------------------

过程4------推荐商品

word2-寻找社交新浪微博中的目标用户的更多相关文章

  1. Redis 在新浪微博中的应用

    Redis 在新浪微博中的应用 Redis简介 1. 支持5种数据结构 支持strings, hashes, lists, sets, sorted setsstring是很好的存储方式,用来做计数存 ...

  2. 产品研发过程中UCD目标的制定与实现

    摘 要:以用户为中心的设计(UCD, User-Centered Design)是保障产品具有较好用户体验(User Experience)的基本活动,其中可用性目标是有效衡量 UCD 活动最终效果的 ...

  3. 菜鸟-手把手教你把Acegi应用到实际项目中(11)-切换用户

    在某些应用场合中,我们可能需要用到切换用户的功能,从而以另一用户的身份进行相关操作.这一点类似于在Linux系统中,用su命令切换到另一用户进行相关操作.      既然实际应用中有这种场合,那么我们 ...

  4. 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇

    测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇   在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...

  5. dgraph解决社交关系中的正反向查找

    dgraph解决社交关系中的正反向查找 本篇介绍的是, 社交关系中的关注者与被关注者在dgraph中如何实现查找. 对dgraph的基本操作不太清楚的可以看看我之前写的博客 dgraph实现基本操作 ...

  6. 在 Linux 中使用超级用户权限

    在你想要使用超级权限临时运行一条命令时,sudo 命令非常方便,但是当它不能如你期望的工作时,你也会遇到一些麻烦.比如说你想在某些日志文件结尾添加一些重要的信息,你可能会尝试这样做: $ echo & ...

  7. sql server中的孤立用户

    此问题出现在数据库的移值上.移值后,数据库的登陆名和数据库用户名孤立,原数据中,用建立的用户名密码登陆可以访问数据库,但是移值后就不能访问了.而且如果您尝试向该登录帐户授予数据库访问权限,则会因该用户 ...

  8. linux 不在sudoers文件中、普通用户获得sudo权限

    现在要让jack用户获得sudo使用权 切换到超级用户root $su root 查看/etc/sudoers权限,可以看到当前权限为440 $ ls -all /etc/sudoers -r--r- ...

  9. 目标用户偏好指数Target Group Index分析

    目标用户偏好指数Target Group Index分析 TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某 ...

随机推荐

  1. 通过winform+模拟登录实现快速一键登录到人才招聘网站

    之前为了便于人事部门招聘登录网站更简洁高效,免去每天频繁输网址.用户名.密码等相关登录信息,特基于winform+HttpWebRequest实现模拟请求登录,最终达到一键登录到招聘网站后台的效果. ...

  2. angular.js封装的树形指令

    html ul.tree-show sub-transclude-set ng-transclude li.parent(ng-repeat='(key,item) in treeData',ng-i ...

  3. IO回忆录之怎样过目不忘(BIO/NIO/AIO/Netty)

    有热心的网友加我微信,时不时问我一些技术的或者学习技术的问题.有时候我回微信的时候都是半夜了.但是我很乐意解答他们的问题.因为这些年轻人都是很有上进心的,所以在我心里他们就是很优秀的,我愿意多和努力的 ...

  4. 开涛spring3(5.1&5.2) - Spring表达式语言 之 5.1 概述 5.2 SpEL基础

    5.1  概述 5.1.1  概述 Spring表达式语言全称为“Spring Expression Language”,缩写为“SpEL”,类似于Struts2x中使用的OGNL表达式语言,能在运行 ...

  5. 全景智慧城市常诚——没接触过VR全景的你就是目前VR最大的新闻

    据调查,自2015年开始,VR(虚拟现实)技术在传媒行业中的应用呈现井喷式增长,各大国际主流媒体纷纷在新闻报道中使用VR技术.国内运用VR报道新闻最早在2015年12月,财新网利用VR技术对深圳山体垮 ...

  6. python 第五弹

    *:first-child { margin-top: 0 !important; } .markdown-body>*:last-child { margin-bottom: 0 !impor ...

  7. java中的一些规则(菜鸟的课堂笔记)

    ls 查看目录下文件 java规则 代码都定义在类中,用class定义 禁止一个源文件写两个类: 一个源文件中,只能有一个类文件是pubic: 一个源文件中如果有多个类,编译完之后会产生多个class ...

  8. iOS中动态注入JavaScript方法。动态给html标签添加事件

    项目中有这样一种需求,给html5网页中图片添加点击事件,并且弹出弹出点击的对应的图片,并且可以保持图片到本地 应对这样的需求你可能会想到很多方法来实现. 1. 最简单的方法就是在html5中添加图片 ...

  9. 免费在线生成彩色带logo的个性二维码

          码工具网站提供免费的在线二维码生成服务,可以把网址.文本.电子邮件.短信.电话号码.电子名片.wifi网络等信息生成对应的二维码图片.你可以设置二维码图片的格式(png,jpg,gif). ...

  10. 最基础的mybatis入门demo

    demo结构 数据库情况 (不会转sql语句 骚瑞) 数据库连接信息 jdbc.properties jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc:m ...