word2-寻找社交新浪微博中的目标用户
项目简述:
为了进行更加精准的营销, 利用数据挖掘相关算法, 利用开放API或自行编写爬虫获得新浪微博, 知乎等社交网络(可能需要破解验证码)中用户所发布的数据, 利用数据挖掘的相关算法进行分析, 从大规模的用户群体中, 分别找出其中具有海淘或母婴购物意向的用户
使用语言:
java
工具:
eclipse
项目过程论述:
1.收集新浪微博用户的数据
2.对这些用户数据进行分析,判断其是否具有母婴的购物意向。
3.对这些具有母婴购物意向的用户进一步分类,分成衣食住行四类。
4.给分好类之后的用户进行推荐相应的母婴商品。
工作流程图如图所示:

----------------------------------------------------------------------------------------------
过程1-----收集新浪微博用户的数据
目的:收集每个用户至少300条微博,不足收集全部,太少则放弃。
收集工具:八爪鱼收集器
收集方法:按照关键词收集,利用新浪微博强大的搜索引擎。
收集规则:

收集结果(存放到mysql):

-------------------------------------------------------------------------------------------------------------------------------------------------------------
过程2-----对收集到的新浪微博用户进行分析,判断其是否具有母婴的购物意向
目的:对一个用户分析,判断是/否具有母婴购物意向
方法:使用向量空间模型的余弦相似度,即两个向量之间的夹角越小,则余弦值越大,这两个向量就越相似
实现过程:
前提:收集数据的时候收集两部分数据,一部分人工判断已知具有母婴购物意向,另一部分是未知购物意向的用户。
1.将每个用户的向量都抽象成N维向量。
方法:参考石延君的博客参考石延君的博客http://shiyanjun.cn/archives/548.html
具体如下:
1)先找出能代表这个用户微博的关键词,将这个用户的微博都存储在一个txt文件中,大致过程如下

2)找出特征向量后,给特征向量的每一维都赋予权重,可以得到初步的N维具有权重的向量。

3)对N维向量进行归一化,直接利用libsvm的scale函数即可(可以参考libsvm的使用方法)。
2.计算未知用户向量与已知购物意向用户向量之间的余弦相似度,如果超过0.5,则认为其是相似的,则有理由认为这些未知用户是具有母婴购物意向的。

---------------------------------------------------------------------------------------------------------------------------------------------------
过程3--------对分析出来具有母婴购物意向的用户进一步分类,分成衣食住行四类
理论基础:使用libsvm来分类

训练集是预先收集好的,分成衣食住行四类的新浪微博用户,带预测集是过程1和2分析出来的具有母婴购物意向的用户。
-----------------------------------------------------------------------------------------------------------------------------------------
过程4------推荐商品

word2-寻找社交新浪微博中的目标用户的更多相关文章
- Redis 在新浪微博中的应用
Redis 在新浪微博中的应用 Redis简介 1. 支持5种数据结构 支持strings, hashes, lists, sets, sorted setsstring是很好的存储方式,用来做计数存 ...
- 产品研发过程中UCD目标的制定与实现
摘 要:以用户为中心的设计(UCD, User-Centered Design)是保障产品具有较好用户体验(User Experience)的基本活动,其中可用性目标是有效衡量 UCD 活动最终效果的 ...
- 菜鸟-手把手教你把Acegi应用到实际项目中(11)-切换用户
在某些应用场合中,我们可能需要用到切换用户的功能,从而以另一用户的身份进行相关操作.这一点类似于在Linux系统中,用su命令切换到另一用户进行相关操作. 既然实际应用中有这种场合,那么我们 ...
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇 在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
- dgraph解决社交关系中的正反向查找
dgraph解决社交关系中的正反向查找 本篇介绍的是, 社交关系中的关注者与被关注者在dgraph中如何实现查找. 对dgraph的基本操作不太清楚的可以看看我之前写的博客 dgraph实现基本操作 ...
- 在 Linux 中使用超级用户权限
在你想要使用超级权限临时运行一条命令时,sudo 命令非常方便,但是当它不能如你期望的工作时,你也会遇到一些麻烦.比如说你想在某些日志文件结尾添加一些重要的信息,你可能会尝试这样做: $ echo & ...
- sql server中的孤立用户
此问题出现在数据库的移值上.移值后,数据库的登陆名和数据库用户名孤立,原数据中,用建立的用户名密码登陆可以访问数据库,但是移值后就不能访问了.而且如果您尝试向该登录帐户授予数据库访问权限,则会因该用户 ...
- linux 不在sudoers文件中、普通用户获得sudo权限
现在要让jack用户获得sudo使用权 切换到超级用户root $su root 查看/etc/sudoers权限,可以看到当前权限为440 $ ls -all /etc/sudoers -r--r- ...
- 目标用户偏好指数Target Group Index分析
目标用户偏好指数Target Group Index分析 TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某 ...
随机推荐
- (转载)sizeof
[C++专题]C++ sizeof 使用规则及陷阱分析 摘要:鉴于sizeof为各大软件公司笔试.面试必考题,现收集sizeof的各种用法,尽量做到全面理解,其中例子希望能举一反三.提示:下文例子 ...
- java容器类
一. 容器类: 下图摘自<Java编程思想>,很好地展示了整个容器类的结构. 由上图可知,容器类库可分为两大类,各自实现了Collection接口和Map接口,下面就常见的类进行一下分类 ...
- swift MBProgressHUD加载gif或者apng的动图
效果图 给MBProgressHUD添加一个分类(extension) extension MBProgressHUD { /// MBProgressHUD 显示加载gif hud方法 /// // ...
- linux centos7.0安装subversion
安装环境以及软件版本如下: subversion使用1.8.17版本,CentOS7.0(64位) 安装svn共需要使用如下软件,apr-1.5.2.tar.gz.apr-util-1.5.4.tar ...
- kotlin语言使用初体验(一)
居说谷歌新认的干儿子kotlin极为受宠,隐隐有替代Java在 android平台老大位置的趋势.kotlin有谷歌撑腰,加上自己的底子也厚,再之与Java无缝兼容,将来在流行的编程语言中占有一席之地 ...
- Plotting trees from Random Forest models with ggraph
Today, I want to show how I use Thomas Lin Pederson's awesome ggraph package to plot decision trees ...
- More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)(转)
This post builds on a previous post, but can be read and understood independently. As part of my cou ...
- java中文件操作《一》
在日常的开发中我们经常会碰到对文件的操作,在java中对文件的操作都在java.io包下,这个包下的类有File.inputStream.outputStream.FileInputStream.Fi ...
- Xmpp学习之Android-smack入门指导
Xmpp学习之Android-smack入门指导 版权声明:本文为博主原创文章,未经博主允许不得转载. 转载请表明出处:http://www.cnblogs.com/cavalier-/p/69404 ...
- 【web前端开发】浏览器兼容性处理
1.居中问题div里的内容,IE默认为居中,而FF默认为左对齐,可以尝试增加代码margin: 0 auto;2.高度问题两上下排列或嵌套的div,上面的div设置高度(height),如果div里的 ...