潜语义分析(Latent Semantic Analysis)

LSI(Latent semantic indexing, 潜语义索引）和LSA（Latent semantic analysis,潜语义分析）这两个名字其实是一回事。我们这里称为LSA。

LSA源自问题：如何从搜索query中找到相关的文档?当我们试图通过比较词来找到相关的文本时，就很机械、存在一定的局限性。在搜索中，文档的相似性并不应该由两个文本包含的词直接决定，而是应该去比较隐藏在词之后的意义和概念。但传统向量空间模型使用精确的词匹配，即精确匹配用户输入的词与向量空间中存在的词。比如用户搜索“automobile”，即汽车，传统向量空间模型仅仅会返回包含“automobile”单词的页面，而实际上包含”car”单词的页面也可能是用户所需要的。潜语义分析试图去解决这个问题，它把词和文档都映射到一个潜在语义空间，文档的相似性在这个空间内进行比较。潜语义空间的维度个数可以自己指定，往往比传统向量空间维度更少，所以LSA也是一种降维技术。

LSA的整个过程如下：

1. 将文档集构造成Term-Document矩阵M，矩阵中的每个位置的值可以是该行代表个词在该列代表的文档中的词频、TFIDF值或其他。

2. 对Term-Document矩阵进行SVD奇异值分解，此时M = U * S * V^T。SVD奇异值分解的详细过程可以查看此文。

3. 对SVD分解后的矩阵进行降维，只保留矩阵S前K个最大的奇异值得到S’。相应的U、V分别为U’、V’。 V’中的每行即为每个文档在潜在语义空间上的K维表示。

4. 使用降维后的矩阵重建Term-Document矩阵M’ = U’ * S’ * V’^T。

5. 对于一个列向量表示的新文档Q，其在潜在语义空间上的K维表示为Q’ = Q^T*U’*S’^-1。

6. 将新文档Q于文档集中的每个文档在潜在语义空间进行相似度计算，得到与Q最相似的文档。

下面是一个具体的例子，例子中能展现LSA的效果：M中human-C2值为0，因为文档C2中并不包含词human，但是重建后的M’中human-C2为0.40，表明human和C2有一定的关系，为什么呢？因为C2中包含user单词，和human是近似词，因此human-C2的值被提高了。(U、S、V中阴影部分别降维后的U’、S’、V’)。

LSA在复旦大学文本分类语料库上的验证：

(1)从分类语料中选取了Computer、Agriculture、Sports三个类别的文章，每个类别各取50篇左右。对每篇文章进行切词，停用词过滤后得到这里需要的的实验文档集。

(2) 使用Gensim对实验文档集进行LSA

   1:  from gensim import corpora, models, similarities

2:

   3:  textset = 'C:\\Users\\Administrator\\Desktop\\LSA\\textset.txt'

   4:  texts = [line.lower().split() for line in open(textset)]

5:

   6:  # Map word to wordid, delete word occur only once

   7:  dictionary = corpora.Dictionary(texts)

   8:  once_ids = [tokenid for tokenid, docfreq in dictionary.dfs.iteritems() if docfreq == 1]

   9:  dictionary.filter_tokens(once_ids)

  10:  dictionary.compactify()

11:

  12:  corpus = [dictionary.doc2bow(text) for text in texts]

13:

  14:  # Use TF-IDF

  15:  tfidf = models.TfidfModel(corpus)

  16:  corpus_tfidf = tfidf[corpus]

17:

  18:  # Use LSI

  19:  lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=3)

  20:  corpus_lsi = lsi[corpus_tfidf]

21:

  22:  for doc in corpus_lsi:

  23:      print doc

(3) 画出每个文档在3维的潜语义空间上的对应坐标点，得到下图。可以看到整个文档集内的文档，朝3个方向分布，分别对应Computer、Agriculture、Sports三个类别。

转自本人博客：http://www.datalab.sinaapp.com/

潜语义分析(Latent Semantic Analysis)的更多相关文章

潜在语义分析Latent semantic analysis note(LSA)原理及代码
文章引用:http://blog.sina.com.cn/s/blog_62a9902f0101cjl3.html Latent Semantic Analysis (LSA)也被称为Latent S ...
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍一
Latent Semantic Analysis (LSA) Tutorial 译:http://www.puffinwarellc.com/index.php/news-and-articles/a ...
主题模型之概率潜在语义分析（Probabilistic Latent Semantic Analysis）
上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类 ...
主题模型之潜在语义分析（Latent Semantic Analysis）
主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题.主题之间的联系方式和主题的发展.通过主题模型可以使我们组织和总结 ...
NLP —— 图模型（三）pLSA（Probabilistic latent semantic analysis，概率隐性语义分析）模型
LSA(Latent semantic analysis,隐性语义分析).pLSA(Probabilistic latent semantic analysis,概率隐性语义分析)和 LDA(Late ...
Latent semantic analysis note(LSA)
1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwes ...
Latent Semantic Analysis(LSA/ LSI)原理简介
LSA的工作原理: How Latent Semantic Analysis Works LSA被广泛用于文献检索,文本分类,垃圾邮件过滤,语言识别,模式检索以及文章评估自动化等场景. LSA其中一个 ...
海量数据挖掘MMDS week4: 推荐系统之隐语义模型latent semantic analysis
http://blog.csdn.net/pipisorry/article/details/49256457 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
Notes on Probabilistic Latent Semantic Analysis (PLSA)
转自:http://www.hongliangjie.com/2010/01/04/notes-on-probabilistic-latent-semantic-analysis-plsa/ I hi ...

随机推荐

sublime c++ builder
rt, mark { "cmd": ["g++", "${file}", "-o", "${file_path ...
【GPS】数据围栏
1.记录gps信息,定位类型 gps agps ,偏移量 2.根据id检索用户 gps 历史记录 3.创建围栏 4.围栏内用户检索(先实现圆形和矩形) 5.判断一个点是否进出围栏应用场景: o ...
VisualStudio自定义代码段_方法二
1.在项目中新增一个xml文件为vcoo.snippet,然后右键“插入代码段”,选择Snippet即可: 2.修改代码片段内容后保存: 3.VS菜单中选择“工具”-“代码段管理器”导入这个snipp ...
原生 JavaScript 图片裁剪效果
图片裁剪程序效果如下,可鼠标操作. 拖动左边小方框时在右侧实时显示对应的裁剪图片,同时左侧的拖动框里图片完全显示,拖动框外部图片模糊显示.8个控制点可以对显示区域大小进行控制. HTML 和 CS ...
JS数组整理
1. 检测数组的方法: 1. instanceof[操作符]: var arr = []; console.log(arr instanceof Array);//true 1. instanceof ...
csuoj 1350: To Add Which?
这个题目其实很简单,可惜当时比赛的时候看到出的人少,以为有trick,就和队友扯淡去了: 因为每个数总是被相邻的数影响,所以往前往后扫两遍就行了: #include<cstdio> #in ...
unity 基础之PhysicsManager
原地址:http://www.cnblogs.com/alongu3d/p/3644725.html @by 广州小龙 1.Gravity(重力) 物理系统都是根据实际情况进行模拟的,由于Y值是往下 ...
Jmeter 日志设置---如何设置java协议中被测jar的日志？
先转载一下Jmeter的日志设置: Jmeter运行出现问题可以通过调整jmeter的日志级别定位问题,但运行测试时建议关闭jmeter日志,jmeter打印日志耗费系统性能. Jmeter日志默认存 ...
ANDROID_MARS学习笔记_S01原始版_009_下载文件
一.代码1.xml(1)main.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayo ...
转:Web service是什么？
作者: 阮一峰我认为,下一代互联网软件将建立在Web service(也就是"云")的基础上. 我把学习笔记和学习心得,放到网志上,欢迎指正. 今天先写一个最基本的问题,Web ...

潜语义分析(Latent Semantic Analysis)

潜语义分析(Latent Semantic Analysis)的更多相关文章

随机推荐

热门专题