https://www.jianshu.com/p/9fe0a7004560 一.简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:不同的是,LSA 将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度. 二.文本挖掘的两个方面应用 (1)分类: a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类) b
1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法.该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:而不同的是,LSA将词和文档映射
高阶奇异值分解(High Order Singular Value Decomposition, HOSVD) 奇异值分解SVD(Singular Value Decomposition)是线性代数中一种重要的矩阵分解. 奇异值|A|=0 奇异值分解法是线性代数和矩阵论中一种重要的矩阵分解法,在信号处理.统计学等领域有重要应用. 定义:设A为复数域内m*n阶矩阵, A*表示A的共轭转置矩阵,A*A的n个非负特征值的算术平方根叫作矩阵A的奇异值.记为σi(A). 如果把A*A的特征值记为λi
自然语言处理之LSA LSA(Latent Semantic Analysis), 潜在语义分析.试图利用文档中隐藏的潜在的概念来进行文档分析与检索,能够达到比直接的关键词匹配获得更好的效果. LSA的核心思想 假设有 nn 篇文档,这些文档中的单词总数为 mm (可以先进行分词.去词根.去停止词操作),我们可以用一个 m∗nm∗n的矩阵 XX 来表示这些文档,这个矩阵的每个元素 XijXij 表示第 ii 个单词在第 jj 篇文档中出现的次数(也可用tf-idf值).下文例子中得到的矩阵见下图
LSA的工作原理: How Latent Semantic Analysis Works LSA被广泛用于文献检索,文本分类,垃圾邮件过滤,语言识别,模式检索以及文章评估自动化等场景. LSA其中一个目的是解决如通过搜索词/关键词(search words)定位出相关文章.如何通过对比单词来定位文章是一个难点,因为我们正在要做的是对比单词背后的语义.潜在语义分析的基本原理是将文章和单词懂映射到语义空间( “concept” space )上,并在该空间进行对比分析. 当单词-标题(或文章)矩阵创
Hinton第15课,本节有课外读物<Semantic Hashing>和<Using Very Deep Autoencoders for Content-Based Image Retrieval>这两篇论文 一.从PCA到AE 这部分中,首先介绍下PCA,这个方法被广泛的应用在信号处理上.PCA的idea就是高维数据可以用更低维度的编码来表示,当数据位于高维空间中的线性流形(linear manifold)附近时就会发生这种情况.所以如果我们可以找到这个线性流形,我们就能将数