LDA(latent dirichlet allocation)的应用
http://www.52ml.net/1917.html
主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似,通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。
而且GibbsSampling的LDA实现也相对容易,可以参考一些代码。
最近看微博上 志飞Google 发起的帖子,大多业界用lda或者plsa的都表态了。腾讯的rickjin等。摘录一些,大家以后遇到类似的问题可以尝试下topic model。
===
rickjin :PLSA 和 LDA 在广告系统中做文本语义相似度的计算还是可以的,至少能保证弱语义相关性。另外,我们把 LDA inference 出来的 topic 用在了文本分类器中做feature, 可以显著的提升分类器的 precission/recall
机器学习那些事儿 :在计算搜索query相似度时直接采用LSA了,因为SVD的效率在工业界已经很成熟。//@rickjin :回复 @志飞Google :哦, 没有说清楚, 我指的是弱语义关联,比如 LDA 可以有效的用于计算 "柯南" 和 "火影忍者" 这两个 query 的相似度
机器学习那些事儿 :打个比方,有1000万个样本,只用learning的100个topic做feature,结果可想而知// @余凯_西二旗民工 :只用topic分类,效果不好,尤其是在训练样本多的时候。// @老师木 : 只用topic作文本分类,效果怎样。
李沐mu :有公司用lda做cookie做user group,然后当feature用,效果挺好/ @洪亮劼 : 目前正在做LDA在大规模user profiling + personalization的工作。
张栋_机器学习 :PLSA (dirichlet prior = zero 的 LDA)还是很实用的,我们用它解过几个工业界的问题
袁全V :我们在广告中在用lda做cookie-url grouping, 最近在尝试用来发现长尾语义
苏劲松XMUNLP :baidu好像把plsa用得挺好的,lda就不知道了。
LDA(latent dirichlet allocation)的应用的更多相关文章
- JGibbLDA:java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用
转载自:http://blog.csdn.net/memray/article/details/16810763 一.概述 JGibbLDA是一个java版本的LDA(Latent Dirichl ...
- LDA(latent dirichlet allocation)
1.LDA介绍 LDA假设生成一份文档的步骤如下: 模型表示: 单词w:词典的长度为v,则单词为长度为v的,只有一个分量是1,其他分量为0的向量 $(0,0,...,0,1,0,... ...
- LDA(Latent Dirichlet allocation)主题模型
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系.一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成. 它是一种主题模型,它可以将文档 ...
- LDA(Latent Dirichlet Allocation)主题模型算法
原文 LDA整体流程 先定义一些字母的含义: 文档集合D,topic集合T D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词.(LDA里面 ...
- Latent Dirichlet Allocation 文本分类主题模型
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征.往往一个数据集就会有上万个特征:有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计 ...
- LDA( Latent Dirichlet Allocation)主题模型 学习报告
1 问题描述 LDA由Blei, David M..Ng, Andrew Y..Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一 ...
- [综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&§ionid=983 二项分布和多项分布 http:// ...
- LDA(Latent Dirichlet Allocation)
转自:http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0 ...
- 转:关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码 转: http://andyliuxs.iteye.com/blog/105174 ...
随机推荐
- [BZOJ1115][POI2009]石子游戏Kam解题报告|阶梯博弈
有N堆石子,除了第一堆外,每堆石子个数都不少于前一堆的石子个数.两人轮流操作每次操作可以从一堆石子中移走任意多石子,但是要保证操作后仍然满足初始时的条件谁没有石子可移时输掉游戏.问先手是否必胜. 首先 ...
- 使用 IntraWeb (16) - 基本控件之 TIWList、TIWListbox、TIWComboBox、TIWOrderedListbox
TIWList //列表; 它对应 Html 中的 OL.LI(某些选项下会用表格模拟); TIWListbox 和 TIWComboBox 则对应 Html 在的 Option TIWListbox ...
- THE TOOLS TO MANAGE YOUR DATA ACROSS CLOUDS
http://blog.grexit.com/manage-data-across-clouds/ That the average small business uses a cloud servi ...
- Go 语言中的 new() 和 make()的区别
本文是看了文章之后的心得. 在此感谢. 概述 Go 语言中的 new 和 make 一直是新手比较容易混淆的东西,咋一看很相似.不过解释两者之间的不同也非常容易. 他们所做的事情,和应用的类型也不相同 ...
- Matlab 7.1安装及打不开问题解决
一.安装方法 1.解压[MATLAB.V7.1.Windows版本号].MATLAB.V7.1.R14.SP3.CD1.iso,双击setup进行安装,输入username,单位,找到crac ...
- C#轻量级高性能日志组件EasyLogger
一.课程介绍 本次分享课程属于<C#高级编程实战技能开发宝典课程系列>中的第六部分,阿笨后续会计划将实际项目中的一些比较实用的关于C#高级编程的技巧分享出来给大家进行学习,不断的收集.整理 ...
- delphi socket 编程 使用多线程
http://blog.csdn.net/lailai186/article/details/8788710?utm_source=tuicool TClientSocket和TServerSocke ...
- Mybatis配置返回为修改影响条数
mybatis配置返回为修改影响条数,修改jdbc连接如下即可:添加useAffectedRows=true配置. jdbc:mysql://jdbc.host/{jdbc.db}?useAffect ...
- springboot static方法与构造方法加载@VALUE
application.properties文件 mongodb.host=host111 mongodb.port=port222 import org.springframework.beans. ...
- 手机也需“绿色环保”,省电类APP或将成为“标配”?
随着移动APP的大幅添加.非常多用户发现,这手机耗电量是越来越大了,在各种娱乐应用.办公应用.社交应用的冲击下,以往两天充一次电都OK.如今一天充一次还不够用,因为续航能力变弱.这也为用户带来 ...