一. LSA

1. LSA原理

LSA(latent semantic analysis)潜在语义分析，也被称为 LSI(latent semantic index)，是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents)，并通过向量间的关系(如夹角)来判断词及文档间的关系；不同的是，LSA 将词和文档映射到潜在语义空间，从而去除了原始向量空间中的一些“噪音”，提高了信息检索的精确度。

引用吴军老师在 “矩阵计算与文本处理中的分类问题” 中的总结：

三个矩阵有非常清楚的物理含义。第一个矩阵 U 中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵 V 中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵 D 则表示类词和文章类之间的相关性。因此，我们只要对关联矩阵 X 进行一次奇异值分解，我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。

传统向量空间模型使用精确的词匹配，即精确匹配用户输入的词与向量空间中存在的词，无法解决一词多义(polysemy)和一义多词(synonymy)的问题。实际上在搜索中，我们实际想要去比较的不是词，而是隐藏在词之后的意义和概念。

LSA 的核心思想是将词和文档映射到潜在语义空间，再比较其相似性。

举个简单的栗子，对一个 Term-Document 矩阵做SVD分解，并将左奇异向量和右奇异向量都取后2维（之前是3维的矩阵），投影到一个平面上（潜在语义空间），可以得到：

在图上，每一个红色的点，都表示一个词，每一个蓝色的点，都表示一篇文档，这样我们可以对这些词和文档进行聚类，比如说 stock 和 market 可以放在一类，因为他们老是出现在一起，real 和 estate 可以放在一类，dads，guide 这种词就看起来有点孤立了，我们就不对他们进行合并了。按这样聚类出现的效果，可以提取文档集合中的近义词，这样当用户检索文档的时候，是用语义级别（近义词集合）去检索了，而不是之前的词的级别。这样一减少我们的检索、存储量，因为这样压缩的文档集合和PCA是异曲同工的，二可以提高我们的用户体验，用户输入一个词，我们可以在这个词的近义词的集合中去找，这是传统的索引无法做到的。

2. LSA的优点

1）低维空间表示可以刻画同义词，同义词会对应着相同或相似的主题。

2）降维可去除部分噪声，是特征更鲁棒。

3）充分利用冗余数据。

4）无监督/完全自动化。

5）与语言无关。

3. LSA的缺点

1）LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题，但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点，也就是说一个词的多个意思在空间中对于的是同一个点，并没有被区分。

2）SVD的优化目标基于L-2 norm 或者 Frobenius Norm 的，这相当于隐含了对数据的高斯分布假设。而 term 出现的次数是非负的，这明显不符合 Gaussian 假设，而更接近 Multi-nomial 分布。

3）特征向量的方向没有对应的物理解释。

4）SVD的计算复杂度很高，而且当有新的文档来到时，若要更新模型需重新训练。

5）没有刻画term出现次数的概率模型。

6）对于count vectors 而言，欧式距离表达是不合适的（重建时会产生负数）。

7）维数的选择是ad-hoc的。

二. pLSA

首先，我们可以看看日常生活中人是如何构思文章的。如果我们要写一篇文章，往往是先确定要写哪几个主题。譬如构思一篇自然语言处理相关的文章，可能40%会谈论语言学，30%谈论概率统计，20%谈论计算机，还有10%谈论其它主题。

对于语言学，容易想到的词包括：语法，句子，主语等；对于概率统计，容易想到的词包括：概率，模型，均值等；对于计算机，容易想到的词包括：内存，硬盘，编程等。我们之所以能想到这些词，是因为这些词在对应的主题下出现的概率很高。我们可以很自然的看到，一篇文章通常是由多个主题构成的，而每一个主题大概可以用与该主题相关的频率最高的一些词来描述。以上这种想法由Hofmann于1999年给出的pLSA模型中首先进行了明确的数学化。Hofmann认为一篇文章（Doc）可以由多个主题（Topic）混合而成，而每个Topic都是词汇上的概率分布，文章中的每个词都是由一个固定的Topic生成的。下图是英语中几个Topic的例子。

pLSA的建模思路分为两种。

1. 第一种思路

以的概率从文档集合中选择一个文档

以的概率从主题集合中选择一个主题

以的概率从词集中选择一个词

有几点说明：

以上变量有两种状态：observed ( & ) 和 latent ()
来自文档，但同时是集合（元素不重复），相当于一个词汇表

直接的，针对observed variables做建立likelihood function：

其中，为pair出现的次数。为加以区分，之后使用与标识对应文档与词汇数量。两边取，得：

其中，倒数第二步旨在将暴露出来。由于likelihood function中与存在latent variable，难以直接使用MLE求解，很自然想到用E-M算法求解。E-M算法主要分为Expectation与Maximization两步。

Step 1: Expectation

假设已知与，求latent variable的后验概率

Step 2: Maximization

求关于参数和的Complete data对数似然函数期望的极大值，得到最优解。带入E步迭代循环。

由式可得：

此式后部分为常量。故令：

建立以下目标函数与约束条件：

只有等式约束，使用Lagrange乘子法解决：

对与求驻点，得：

令，得：

，故有：

同理，有：

将与回代Expectation：

，循环迭代。

pLSA的建模思想较为简单，对于observed variables建立likelihood function，将latent variable暴露出来，并使用E-M算法求解。其中M步的标准做法是引入Lagrange乘子求解后回代到E步。

总结一下使用EM算法求解pLSA的基本实现方法：

(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。

(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。

两步迭代进行直到收敛。

2. 第二种思路

这个思路和上面思路的区别就在于对P(d,w)的展开公式使用的不同，思路二使用的是3个概率来展开的，如下：

这样子我们后面的EM算法的大致思路都是相同的，就是表达形式变化了，最后得到的EM步骤的更新公式也变化了。当然，思路二得到的是3个参数的更新公式。如下：

你会发现，其实多了一个参数是P(z)，参数P（d|z）变化了（之前是P(z|d)），然后P(w|z)是不变的，计算公式也相同。

给定一个文档d，我们可以将其分类到一些主题词类别下。

PLSA算法可以通过训练样本的学习得到三个概率，而对于一个测试样本，其中P(w|z)概率是不变的，但是P(z)和P(d|z)都是需要重新更新的，我们也可以使用上面的EM算法，假如测试样本d的数据，我们可以得到新学习的P(z)和P(d|z)参数。这样我们就可以计算：

为什么要计算P(z|d)呢？因为给定了一个测试样本d，要判断它是属于那些主题的，我们就需要计算P(z|d)，就是给定d，其在主题z下成立的概率是多少，不就是要计算吗。这样我们就可以计算文档d在所有主题下的概率了。

这样既可以把一个测试文档划归到一个主题下，也可以给训练文档打上主题的标记，因为我们也是可以计算训练文档它们的的。如果从这个应用思路来说，思路一说似乎更加直接，因为其直接计算出来了。

3. pLSA的优势

1）定义了概率模型，而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释。

2）相比于LSA隐含了高斯分布假设，pLSA隐含的Multi-nomial分布假设更符合文本特性。

3）pLSA的优化目标是是KL-divergence最小，而不是依赖于最小均方误差等准则。

4）可以利用各种model selection和complexity control准则来确定topic的维数。

4. pLSA的不足

1）概率模型不够完备：在document层面上没有提供合适的概率模型，使得pLSA并不是完备的生成式模型，而必须在确定document i的情况下才能对模型进行随机抽样。

2）随着document和term 个数的增加，pLSA模型也线性增加，变得越来越庞大。

3）EM算法需要反复的迭代，需要很大计算量。

针对pLSA的不足，研究者们又提出了各种各样的topic based model, 其中包括大名鼎鼎的Latent Dirichlet Allocation (LDA)。

三. pLSA的Python代码实现

1. preprocess.py

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import numpy as np

class Preprocess:

    def __init__(self, fname, fsw):

        self.fname = fname

        # doc info

        self.docs = []

        self.doc_size = 0

        # stop word info

        self.sws = []

        # word info

        self.w2id = {}

        self.id2w = {}

        self.w_size = 0

        # stop word list init

        with open(fsw, 'r') as f:

            for line in f:

                self.sws.append(line.strip())

    def __work(self):

        with open(self.fname, 'r') as f:

            for line in f:

                line_strip = line.strip()

                self.doc_size += 1

                self.docs.append(line_strip)

                items = line_strip.split()

                for it in items:

                    if it not in self.sws:

                        if it not in self.w2id:

                            self.w2id[it] = self.w_size

                            self.id2w[self.w_size] = it

                            self.w_size += 1

        self.w_d = np.zeros([self.w_size, self.doc_size], dtype=np.int)

        for did, doc in enumerate(self.docs):

            ws = doc.split()

            for w in ws:

                if w in self.w2id:

                    self.w_d[self.w2id[w]][did] += 1

    def get_w_d(self):

        self.__work()

        return self.w_d

    def get_word(self, wid):

        return self.id2w[wid]

if __name__ == '__main__':

    fname = './data.txt'

    fsw = './stopwords.txt'

    pp = Preprocess(fname, fsw)

2. plsa.py

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import numpy as np

import time

import logging

def normalize(vec):

    s = sum(vec)

    for i in range(len(vec)):

        vec[i] = vec[i] * 1.0 / s

def llhood(w_d, p_z, p_w_z, p_d_z):

    V, D = w_d.shape

    ret = 0.0

    for w, d in zip(*w_d.nonzero()):

        p_d_w = np.sum(p_z * p_w_z[w,:] * p_d_z[d,:])

        if p_d_w > 0:

            ret += w_d[w][d] * np.log(p_d_w)

    return ret

class PLSA:

    def __init__(self):

        pass

    def train(self, w_d, Z, eps):

        V, D = w_d.shape

        # create prob array, p(d|z), p(w|z), p(z)

        p_d_z = np.zeros([D, Z], dtype=np.float)

        p_w_z = np.zeros([D, Z], dtype=np.float)

        p_z = np.zeros([Z], dtype=np.float)

        # initialize

        p_d_z = np.random.random([D, Z])

        for d_idx in range(D):

            normalize(p_d_z[d_idx])

        p_w_z = np.random.random([V, Z])

        for w_idx in range(V):

            normalize(p_w_z[w_idx])

        p_z = np.random.random([Z])

        normalize(p_z)

        # iteration until converge

        step = 1

        pp_d_z = p_d_z.copy()

        pp_w_z = p_w_z.copy()

        pp_z = p_z.copy()

        while True:

            logging.info('[ iteration ] step %d' % step)

            step += 1

            p_d_z *= 0.0

            p_w_z *= 0.0

            p_z *= 0.0

            # run EM algorithm

            for w_idx, d_idx in zip(*w_d.nonzero()):

                #print '[ EM ] >>>>>> E step : '

                p_z_d_w = pp_z * pp_d_z[d_idx,:] * pp_w_z[w_idx,:]

                normalize(p_z_d_w)

                #print '[ EM ] >>>>>> M step : '

                tt = w_d[w_idx, d_idx] * p_z_d_w

                p_w_z[w_idx,:] += tt

                p_d_z[d_idx,:] += tt

                p_z += tt

            normalize(p_w_z)

            normalize(p_d_z)

            p_z = p_z / w_d.sum()

            # check converge

            l1 = llhood(w_d, pp_z, pp_w_z, pp_d_z)

            l2 = llhood(w_d, p_z, p_w_z, p_d_z)

            diff = l2 - l1

            logging.info('[ iteration ] l2-l1  %.3f - %.3f = %.3f ' % (l2, l1, diff))

            if abs(diff) < eps:

                logging.info('[ iteration ] End EM ')

                return (l2, p_d_z, p_w_z, p_z)

            pp_d_z = p_d_z.copy()

            pp_w_z = p_w_z.copy()

            pp_z = p_z.copy()

3. main.py

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from preprocess import Preprocess as PP

from plsa import PLSA

import numpy as np

import logging

import time

def main():

    # setup logging --------------------------

    logging.basicConfig(filename='plsa.log',

                        level=logging.INFO,

                        format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',

                        datefmt='%a, %d %b %Y %H:%M:%S')

    #console = logging.StreamHandler()

    #console.setLevel(logging.INFO)

    #logging.getLogger('').addHandler(console)

    # some basic configuration ---------------

    fname = './data.txt'

    fsw = './stopwords.txt'

    eps = 20.0

    key_word_size = 10

    # preprocess -----------------------------

    pp = PP(fname, fsw)

    w_d = pp.get_w_d()

    V, D = w_d.shape

    logging.info('V = %d, D = %d' % (V, D))

    # train model and get result -------------

    pmodel = PLSA()

    for z in range(3, (D+1), 10):

        t1 = time.clock()

        (l, p_d_z, p_w_z, p_z) = pmodel.train(w_d, z, eps)

        t2 = time.clock()

        logging.info('z = %d, eps = %f, time = %f' % (z, l, t2-t1))

        for itz in range(z):

            logging.info('Topic %d' % itz)

            data = [(p_w_z[i][itz], i) for i in range(len(p_w_z[:,itz]))]

            data.sort(key=lambda tup:tup[0], reverse=True)

            for i in range(key_word_size):

                logging.info('%s : %.6f ' % (pp.get_word(data[i][1]), data[i][0]))

if __name__ == '__main__':

    main()

本文由笨兔勿应所有，发布于http://www.cnblogs.com/bentuwuying。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。

LSA，pLSA原理及其代码实现的更多相关文章

flume原理及代码实现
转载标明出处:http://www.cnblogs.com/adealjason/p/6240122.html 最近想玩一下流计算,先看了flume的实现原理及源码源码可以去apache 官网下载 ...
Java Base64加密、解密原理Java代码
Java Base64加密.解密原理Java代码转自:http://blog.csdn.net/songylwq/article/details/7578905 Base64是什么: Base64是 ...
Base64加密解密原理以及代码实现（VC++）
Base64加密解密原理以及代码实现转自:http://blog.csdn.net/jacky_dai/article/details/4698461 1. Base64使用A--Z,a--z,0- ...
AC-BM算法原理与代码实现（模式匹配）
AC-BM算法原理与代码实现(模式匹配) AC-BM算法将待匹配的字符串集合转换为一个类似于Aho-Corasick算法的树状有限状态自动机,但构建时不是基于字符串的后缀而是前缀.匹配时,采取自后向 ...
Java基础知识强化之集合框架笔记47：Set集合之TreeSet保证元素唯一性和比较器排序的原理及代码实现（比较器排序：Comparator）
1. 比较器排序(定制排序) 前面我们说到的TreeSet的自然排序是根据集合元素的大小,TreeSet将它们以升序排列. 但是如果需要实现定制排序,比如实现降序排序,则要通过比较器排序(定制排序)实 ...
PHP网站安装程序的原理及代码
原文:PHP网站安装程序的原理及代码原理: 其实PHP程序的安装原理无非就是将数据库结构和内容导入到相应的数据库中,从这个过程中重新配置连接数据库的参数和文件,为了保证不被别人恶意使用安装文件,当安 ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
机器学习之KNN原理与代码实现
KNN原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9670187.html 1. KNN原理 K ...
机器学习之AdaBoost原理与代码实现
AdaBoost原理与代码实现本文系作者原创,转载请注明出处: https://www.cnblogs.com/further-further-further/p/9642899.html 基本思路 ...

随机推荐

初步了解yield_python
yield 关键字是在学习python生成器(Generator)时遇到的,对于它及Generator至今我还不能很深入的理解,当前只是把所理解的知识作下记录,以便以后翻查. yield关键字是用来定 ...
UIWebView和Js交互
在日常的ios项目开发中,我们经常会在原生应用中嵌入web页面,通常我们只是进行一个展示,没有其它的一些功能.但是也有一些项目中需要web页面中的html和native进行交互.但是ios sdk 并 ...
[poi2010]Hamsters
题意:Tz养了一群仓鼠,他们都有英文小写的名字,现在Tz想用一个字母序列来表示他们的名字,只要他们的名字是字母序列中的一个子串就算,出现多次可以重复计算.现在Tz想好了要出现多少个名字,请你求出最短的 ...
flashcache
Flashcache系统管理员手册 1.简介Flashcache 是为Linux操作系统开发的块设备回写缓存内核模块,使用了Device Mapper的方式实现,本文档可指导你快速掌握Flashcac ...
大数据存储:MongoDB实战指南——常见问题解答
锁粒度与并发性能怎么样? 数据库的读写并发性能与锁的粒度息息相关,不管是读操作还是写操作开始运行时,都会请求相应的锁资源,如果请求不到,操作就会被阻塞.读操作请求的是读锁,能够与其它读操作共享,但是当 ...
java Map及Map.Entry详解
Map是java中的接口,Map.Entry是Map的一个内部接口. Map提供了一些常用方法,如keySet().entrySet()等方法. keySet()方法返回值是Map中key值的集合:e ...
AlwaysOn 部分笔记及文档连接
本文主要含有一些AlwaysOn 配置方法及连接. 本想展开详细写一下无奈隔壁在年会排练节目,那歌唱得我只想赶紧回家!!!!!!!!!!!!!!! http://www.cnblogs.com/d ...
LUN/PV/VG/LV
存储中的几个概念,参考一些网络资料重新画个图梳理下,如下: LUN:lun是针对存储设备(如磁盘阵列)的逻辑概念,物理上可能就是几块硬盘.那么主机的HBA 卡看到的存储上的存储资源就靠主要两个东西定位 ...
Linux及文件系统基本介绍
Linux及文件系统基本介绍 1 互联网行业现状在服务器端市场: 超级计算机 2014年11月的数据显示前500系统中的485个系统都在运行着 Linux 的发布系统,而仅仅只有一台运行着 Wi ...
HTTP协议解析
1. HTTP版本 HTTP/1.0 HTTP/1.1 HTTP-NG 2. 会话方式 HTTP/1.0 建立连接->请求->响应->断开连接每次连接只处理一次请求和相应,对资源的 ...

LSA，pLSA原理及其代码实现