Gibs抽样

/*

 * Copyright (C) 2007 by

 *

 *     Xuan-Hieu Phan

 *    hieuxuan@ecei.tohoku.ac.jp or pxhieu@gmail.com

 *     Graduate School of Information Sciences

 *     Tohoku University

 *

 *  Cam-Tu Nguyen

 *  ncamtu@gmail.com

 *  College of Technology

 *  Vietnam National University, Hanoi

 *

 * JGibbsLDA is a free software; you can redistribute it and/or modify

 * it under the terms of the GNU General Public License as published

 * by the Free Software Foundation; either version 2 of the License,

 * or (at your option) any later version.

 *

 * JGibbsLDA is distributed in the hope that it will be useful, but

 * WITHOUT ANY WARRANTY; without even the implied warranty of

 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the

 * GNU General Public License for more details.

 *

 * You should have received a copy of the GNU General Public License

 * along with JGibbsLDA; if not, write to the Free Software Foundation,

 * Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA.

 */

package jgibblda;

import java.io.File;

import java.util.Vector;

public class Estimator {

    // output model

    protected Model trnModel;

    LDACmdOption option;

    public boolean init(LDACmdOption option){

        this.option = option;

        trnModel = new Model();

        if (option.est){

            if (!trnModel.initNewModel(option))

                return false;

            trnModel.data.localDict.writeWordMap(option.dir + File.separator + option.wordMapFileName);

        }

        else if (option.estc){

            if (!trnModel.initEstimatedModel(option))

                return false;

        }

        return true;

    }

    public void estimate(){

        System.out.println("Sampling " + trnModel.niters + " iteration!");

        int lastIter = trnModel.liter;

        for (trnModel.liter = lastIter + 1; trnModel.liter < trnModel.niters + lastIter; trnModel.liter++){

            System.out.println("Iteration " + trnModel.liter + " ...");

            // for all z_i

            for (int m = 0; m < trnModel.M; m++){

                for (int n = 0; n < trnModel.data.docs[m].length; n++){

                    // z_i = z[m][n]

                    // sample from p(z_i|z_-i, w)

                    int topic = sampling(m, n);

                    trnModel.z[m].set(n, topic);

                }// end for each word

            }// end for each document

            if (option.savestep > 0){

                if (trnModel.liter % option.savestep == 0){

                    System.out.println("Saving the model at iteration " + trnModel.liter + " ...");

                    computeTheta();

                    computePhi();

                    trnModel.saveModel("model-" + Conversion.ZeroPad(trnModel.liter, 5));

                }

            }

        }// end iterations        

        System.out.println("Gibbs sampling completed!\n");

        System.out.println("Saving the final model!\n");

        computeTheta();

        computePhi();

        trnModel.liter--;

        trnModel.saveModel("model-final");

    }

    /**

     * Do sampling

     * @param m document number

     * @param n word number

     * @return topic id

     */

    public int sampling(int m, int n){

        // remove z_i from the count variable

        int topic = trnModel.z[m].get(n);

        int w = trnModel.data.docs[m].words[n];

        trnModel.nw[w][topic] -= 1;

        trnModel.nd[m][topic] -= 1;

        trnModel.nwsum[topic] -= 1;

        trnModel.ndsum[m] -= 1;

        double Vbeta = trnModel.V * trnModel.beta;

        double Kalpha = trnModel.K * trnModel.alpha;

        //do multinominal sampling via cumulative method

        for (int k = 0; k < trnModel.K; k++){

            trnModel.p[k] = (trnModel.nw[w][k] + trnModel.beta)/(trnModel.nwsum[k] + Vbeta) *

                    (trnModel.nd[m][k] + trnModel.alpha)/(trnModel.ndsum[m] + Kalpha);

        }

        // cumulate multinomial parameters

        for (int k = 1; k < trnModel.K; k++){

            trnModel.p[k] += trnModel.p[k - 1];

        }

        // scaled sample because of unnormalized p[]

        double u = Math.random() * trnModel.p[trnModel.K - 1];

        for (topic = 0; topic < trnModel.K; topic++){

            if (trnModel.p[topic] > u) //sample topic w.r.t distribution p

                break;

        }

        // add newly estimated z_i to count variables

        trnModel.nw[w][topic] += 1;

        trnModel.nd[m][topic] += 1;

        trnModel.nwsum[topic] += 1;

        trnModel.ndsum[m] += 1;

         return topic;

    }

    public void computeTheta(){

        for (int m = 0; m < trnModel.M; m++){

            for (int k = 0; k < trnModel.K; k++){

                trnModel.theta[m][k] = (trnModel.nd[m][k] + trnModel.alpha) / (trnModel.ndsum[m] + trnModel.K * trnModel.alpha);

            }

        }

    }

    public void computePhi(){

        for (int k = 0; k < trnModel.K; k++){

            for (int w = 0; w < trnModel.V; w++){

                trnModel.phi[k][w] = (trnModel.nw[w][k] + trnModel.beta) / (trnModel.nwsum[k] + trnModel.V * trnModel.beta);

            }

        }

    }

}

Gibs抽样的更多相关文章

MCMC 、抽样算法与软件实现
一.MCMC 简介 1. Monte Carlo 蒙特卡洛蒙特卡洛方法(Monte Carlo)是一种通过特定分布下的随机数(或伪随机数)进行模拟的方法.典型的例子有蒲丰投针.定积分计算等等,其基础 ...
《BI那点儿事》数据流转换——百分比抽样、行抽样
百分比抽样和行抽样可以从数据源中随机选择一组数据.这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的.可以将这些选择出的数据发送到开发或者测试服务器上.这个Task的最合适的应用 ...
[hive小技巧]使用limit查询变成抽样，而不是全盘扫描
将set hive.limit.optimize.enable=true 时,limit限制数据时就不会全盘扫,而是根据限制的数量进行抽样. 同时还有两个配置项需要注意: 1.hive.limit.r ...
alias sample method——运行时间复杂度为O(1)的抽样算法
根据离散离散概率分布抽样是一个常见的问题.这篇文章将介绍运行时间复杂度为O(1)的 alias method 抽样算法思想. 下面举例说明: 比如 a,b,c,d 的概率分别为 0.1,0.2,0.3 ...
Reservoir Sampling - 蓄水池抽样
问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the o ...
[大牛翻译系列]Hadoop（7）MapReduce：抽样（Sampling）
4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计.仅仅是优化代码是很难达到良好的效果. 在开发和调试代码的时候,没有必要处理整个数据集 ...
二、MLlib统计指标之关联/抽样/汇总
汇总统计[Summary statistics]: Summary statistics提供了基于列的统计信息,包括6个统计量:均值.方差.非零统计量个数.总数.最小值.最大值. import org ...
蓄水池抽样（原理&实现）
前言: 蓄水池抽样:从N个元素中随机的等概率的抽取k个元素,其中N无法确定. 适用场景: 模式识别等概率抽样,抽样查看渐增的log日志(无法先保存整个数据流然后再从中选取,而是期望有一种将数据流遍历一 ...
top-N 抽样
1, 使用hive标记random:(如果是mr,就自己标记random值) use ps; set mapred.job.priority=VERY_HIGH; set mapred.job ...

随机推荐

swift - VC添加手势返回
1.需要添加手势的界面 (1)addBackGesture() (2) 设置手势返回代理 // MARK: - 添加返回手势 extension JYRTSShopDetialConteoller:U ...
Android Studio连接真机调试
1.安装配置Android studio2.2 2.下载手机驱动或者安装手机助手(360手机助手) 3.用手机助手连接用于调试的手机注意手机要开启开发者模式->允许USB调试 4.查看手机连接 ...
Echart实现多个y轴，坐标轴的个数及名称由后台传过来的json数据决定。
yAxis: function(){ var yAxis=[]; for(var i=0;i<legend1.length;i++){ var item={ name:legend1[i], t ...
关于sortedlist 中值的添加,删除,索引测试.
SortedList 类代表了一系列按照键来排序的键/值对,这些键值对可以通过键和索引来访问. 排序列表是数组和哈希表的组合.它包含一个可使用键或索引访问各项的列表.如果您使用索引访问各项,则它是一个 ...
C#委托深入学习
一基础学习: .Net delegate类型:委托跟回调函数是很有渊源的.回调其实跟通知机制有关,考虑这样一个基本的事件序列: a对象调用了b对象的某个方法,希望b对象在其方法完成之时调用a对象的某个 ...
linux通过python设置系统默认编码
import sys sys.reload() sys.getdefaultencoding() # 查看设置前系统默认编码 sys.setdefaultencoding('utf-8') sys.g ...
Scrapy框架学习笔记
1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
LibreOJ 6003. 「网络流 24 题」魔术球贪心或者最小路径覆盖
6003. 「网络流 24 题」魔术球内存限制:256 MiB时间限制:1000 ms标准输入输出题目类型:传统评测方式:Special Judge 上传者: 匿名提交提交记录统计讨论测试数据 ...
mysql错误日志
cat /etc/my.cnf
[Robot Framework] SikuliLibrary的关键字执行依赖java进程，但是上次的java进程如果没有杀掉，robot framework控制台的日志出不来，怎么办？
如果在suite的setup里面杀掉java进程:AutoItLibrary.Run | taskkill /F /IM java.exe 执行sikuli的关键字会报这样的错误: Connectio ...

Gibs抽样

Gibs抽样的更多相关文章

随机推荐

热门专题