N-gram N-gram 作为一个名词表示的是一个给定文本/音频样本中有n项(音素,音节,字母,单词)的一个连续序列. 数学表达 N-gram 模型表示的是当前这个 word \(w_i\) 依赖于前面 N-1 个word,所以可以表达为 \[\begin{aligned} P\left(w_i|w_{i-n+1}^{i-1}\right) & = P(w_i|w_{i-n+1}\cdots w_{i-1}) \\ \{MLE\} & \approx \frac{c(w_{i-n+1}\…
1.简介 SRILM是通过统计方法构建语言模型,主要应用于语音识别,文本标注和切分,以及机器翻译等. SRILM支持语言模型的训练和评测,通过训练数据得到语言模型,其中包括最大似然估计及相应的平滑算法:评测是计算测试集的困惑度.其最基础和最核心的模块是n-gram模块,包括两个工 具:ngram-count和ngram,被用来估计语言模型和计算语言模型的困惑度. 2.使用方法 (1).语料初始化 a.数据清洗        b.分词(以空格划分)        c.将数据分为训练集和测试集 (2…
1. 背景介绍 广告形式: 互联网广告可以分为以下三种: 1)展示广告(display ad) 2)搜索广告(sponsored search ad) 3)上下文广告(contextual ad)   竞价模式: 对于在线广告,主要有以下几种竞价模式: 1)pay-per-impression(按展示付费):广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型.缺点在于没有考虑投放广告的效果. 2)pay-per-action(按行为付费):只有在广告产生了销售或者类似的一些转化时,广告商才…
1. 前言 前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html. 这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,以及具体的代码实现. 首先,我们回顾一下前文中介绍的似然函数,也就是我们需要进行最大化的目标函数: 下面我们就基于这个目标函数介绍怎样估计参数. 2. 参数估计的几种方法 1. 矩估计 矩估计在这里有点乱入的意思:),因为它其实不是用来最大化似然函数的,而是直接进行参数的近似估计. 矩估…
1. 背景介绍 广告形式: 互联网广告可以分为以下三种: 1)展示广告(display ad) 2)搜索广告(sponsored search ad) 3)上下文广告(contextual ad)   竞价模式: 对于在线广告,主要有以下几种竞价模式: 1)pay-per-impression(按展示付费):广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型.缺点在于没有考虑投放广告的效果. 2)pay-per-action(按行为付费):只有在广告产生了销售或者类似的一些转化时,广告商才…
在上一篇[http://www.cnblogs.com/webor2006/p/7707281.html]中提到了方法推导的东东: 这里说细的学习一下它,下面走起! Method references[方法推导]: 编译运行: 而对于上面的代码可以用Lambda更加精简: 不多解释,然后对于上面的代码还能进一步精简,这时就得用到Lambda的方法推导啦,如下: 可以打一下println()的方法源码: 而方法推导的使用方式就是类后面加两个":",再跟上要调用的方法名. 其实在JAVA8…
一.写在前面 这题似乎是一道原创题目(不是博主原创),所以并不能在任何OJ上评测,博主在网盘上上传了数据(网盘地址:http://pan.baidu.com/s/1mibdMXi),诸位看官需者自取.另外博主使用此题并没有获得出题人授权,如果出题人看到这篇blog并认为在下侵犯了您的权利,请用站内消息与在下联系,在下会立即删除这篇blog,给您带来的困扰之处敬请谅解. 博主上传这道题主要是因为这题牵扯许多数学运算,推导过程比较复杂,但是却没有用到任何算法或者数学定理,可以说这是一道想法题的典范.…
引言: Normal Equation 是最基础的最小二乘方法.在Andrew Ng的课程中给出了矩阵推到形式,本文将重点提供几种推导方式以便于全方位帮助Machine Learning用户学习. Notations: RSS(Residual Sum Squared error):残差平方和 β:参数列向量 X:N×p 矩阵,每行是输入的样本向量 y:标签列向量,即目标列向量 Method 1. 向量投影在特征纬度(Vector Projection onto the Column Space…
一.静态方法的推导 public class MainTest { public static void main(String[] args) { // 正常情况下我们需要通过写一个consumer的方法来调用 testConsumer("abc",(s)->System.out.println(s)); System.out.println("====================="); //但是我们只是将一个内容输入,没必要这么麻烦,jdk1.8 已…
如何运行Moses 1. Moses的历史 Moses是Pharaoh的升级版本,增加了许多功能.它是一个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台.它有两大特点: 1.1 Factored Translation Model 在Factored Translation Model中,一个单词不仅仅是一个符号(token),而是一个包含多个因子的向量,例如表面词形.词干.词性等.这些因子共同作用来刻画一个单词.…