转自:http://www.datalab.sinaapp.com/?p=237 最近看了LDA以及文本聚类的一些方法,写在这里算是读书笔记.文章最后进行了一个小实验,通过爬取本人在微博上关注的人的微博,利用微博的内容,尝试将我关注的人按主题进行进行聚类. 文本聚类就是把一个文本集分成一定数量的簇(Cluster),使每个簇内的文本之间具有较大的相似性,而使簇间的文本具有较大的差异性.传统的文 本聚类方法一般基于向量空间模型(vector space model): 在对文本集中的每个文本进行预…
转载自wentingtu 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人.我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业.一篇关于Topic Model的博士论文充分体现其精深的数学概率功底:而其自己实现的LDA又可体现其不俗的编程能力.说人无用,有论文为证: J. Chang and D. Blei. Relational Topic Models for Document Ne…
转载于: 转:基于LDA的Topic Model变形 最近有想用LDA理论的变形来解决问题,调研中.... 基于LDA的Topic Model变形 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人.我主要关注了下面这位大牛和他的学生: David M. BleiLDA的创始者,04年博士毕业.一篇关于Topic Model的博士论文充分体现其精深的数学概率功底:而其自己实现的LDA又可体现其不俗的编程能力.说人无用,有论文为证:…
此次爬虫要实现的是爬取某个微博用户的关注和粉丝的用户公开基本信息,包括用户昵称.id.性别.所在地和其粉丝数量,然后将爬取下来的数据保存在MongoDB数据库中,最后再生成几个图表来简单分析一下我们得到的数据. 一.具体步骤: 这里我们选取的爬取站点是https://m.weibo.cn,此站点是微博移动端的站点,我们可以直接查看某个用户的微博,比如https://m.weibo.cn/profile/5720474518. 然后查看其关注的用户,打开开发者工具,切换到XHR过滤器,一直下拉列表…
selenum的安装 selenium文档 获取微博用户粉丝数 from selenium import webdriver from time import sleep wd = webdriver.Chrome("D:\program\chromedriver_win32\chromedriver.exe") wd.maximize_window() wd.implicitly_wait(15) # 打开微博首页 wd.get("https://weibo.com/&qu…
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐算法中最常用和最经典的算法. 协调过滤算法主要有两种: 用户对物品:  考查具有相同爱好的用户对相同物品的评分标准进行计算: 物品对用户:  考查具有相同物质的物品从而推荐给选择了某件物品的用户. 相似度度量(基于欧几里得距离的相似度计算和基于余弦角度的相似度计算) (1).基于欧几里得距离的相似度…
python爬虫,微博爬虫,需要知晓微博用户id号,能够通过抓取微博用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的! 要抓取的微博地址:https://weibo.com/u/5118612601 BUT,我们实际应用的抓取地址:https://m.weibo.cn/u/5118612601(移动端的微博地址) LSP的最爱,各种小姐姐,随你任意爬取,快收藏起来啊! 通过浏览器抓包,我们可以获悉几个比较重要的参数: type: uid…
http://saas.chinacloudtech.com 题记 三年磨一剑,在企业信息化的道路上已经走了3年之久了,3年多时间里做了很多,突破了很多:有无奈和辛酸,也有收货与喜悦:自我价值也在不断的提升当中,经过多达半年之久的时间,提炼出一套适合企业信息化软件开发的框架产品[WebMisCentral],以此纪念在企业信息化建设上走过的路,同时也希望能够对正在企业信息化建设道路上做系统开发的朋友们有所帮助,有所启迪. 乍看文章题目,可能有不少童鞋会不屑一顾,因为这两年,以类似的“通用权限管理…
1.1获取weibo用户信息 //先登入授权,可以参考QQ登入(1) Weibo mWeibo = new Weibo(this, mQQAuth.getQQToken()); mWeibo.getWeiboInfo(new TQQApiListener("get_info", false,MyQQloginShareActivity.this)); 1.2.添加结果监听 private class TQQApiListener implements IUiListener { pub…
转:http://blog.csdn.net/zw_2011/article/details/7417132 SharePoint 2010在用户认证模式上,较之以前的版本有了非常大的改变.在SharePoint 2010中,当你创建一个Web应用程序的时候,有两种认证方式可供选择: 1. Classic Mode Authentication 就是传统的Windows认证模式,用户认证和用户身份都是标准的Windows认证机制: 2.Claims Based Authentication 基于…