统计机器翻译(SMT)步骤总结

本文是在Niutrans论坛中的系列教程中总结出来的. 1.语料预处理预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字.日期.网址等,进行泛化处理.可以用正则方法或者其它方法.注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来. 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式比较多变.从文本中抽取出来中文日期时间(或者更进一步的转化成标准的时间格式),有一个办法,就是用trie树进行抽取,相较于写一大堆翻乱的正则表达…

自然语言处理（四）统计机器翻译SMT

1.统计机器翻译三要素 1.翻译模型 2.语言模型 3.排序模型 2.翻译流程 1.双语数据预处理 2.词对齐 3.构造短语翻译表 4.对短语翻译表进行概率估计 5.解码,beam search 6.评估…

基于短语的统计机器翻(PBMT) 开源工具：Moses

如何运行Moses 1. Moses的历史 Moses是Pharaoh的升级版本,增加了许多功能.它是一个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台.它有两大特点: 1.1 Factored Translation Model 在Factored Translation Model中,一个单词不仅仅是一个符号(token),而是一个包含多个因子的向量,例如表面词形.词干.词性等.这些因子共同作用来刻画一个单词.…

NLP教程(6) - 神经机器翻译、seq2seq与注意力机制

作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-detail/242 声明:版权所有,转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n<自然语言处理与深度学习(Natural Language Processing with Deep Learning)>的全套学习笔记,对应的课程视频可以在这里查看…

神经机器翻译（NMT）相关资料整理

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展.最近几年相关的论文,开源系统也是层出不穷.本文主要梳理了神经机器翻译入门.进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总结了相关的开源系统和业界大牛,以便其他的小伙伴可以更快的了解神经机器翻译这一领域. 随着知识的逐步积累,本文后续会持续更新.请关注. 2 入门…

验证Oracle收集统计信息参数granularity数据分析的力度

最近在学习Oracle的统计信息这一块,收集统计信息的方法如下: DBMS_STATS.GATHER_TABLE_STATS ( ownname VARCHAR2, ---所有者名字 tabname VARCHAR2, ---表名 partname VARCHAR2 DEFAULT NULL, ---要分析的分区名 estimate_percent NUMBER DEFAULT NULL, ---采样的比例 block_sample BOOLEAN DEFAULT FALSE, ---是否块分析…

jacoco统计server端功能测试覆盖率

jacoco可以统计,功能测试时,server代码调用的覆盖情况.这里对服务器端的java代码进行统计. 操作步骤如下: 第一步:更改server的启动脚本,使用jacocoagent.jar启动服务 1.下载jacocoagent.jar http://www.jacoco.org/jacoco/index.html jacocoagent.jar在下载的zip的./lib/目录下,使用方法-javaagent:[yourpath/]jacocoagent.jar=[optio…

神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述背景及问题背景: 翻译: 翻译模型学习条件分布后,给定一个源句,通过搜索最大条件概率的句子,可以生成相应的翻译. 神经网络翻译:两个组件:第一个:合成一个源句子x:第二个:解码一个目标句子y. 问题:固定长度向量是编码器 - 解码器架构性能提升的瓶颈. 本文主要思想本文提出:允许模型自动(软)搜索与预测目标单词相关的源句 --- 扩展的编码器…

李航《统计学习方法》CH01

CH01 统计学方法概论前言章节目录统计学习监督学习基本概念问题的形式化统计学习三要素模型策略算法模型评估与模型选择训练误差与测试误差过拟合与模型选择正则化与交叉验证正则化交叉验证泛化能力泛化误差泛化误差上界生成模型与判别模型分类问题标注问题回归问题导读直接看目录结构,会感觉有点乱,就层级结构来讲感觉并不整齐. 可以看本章概要部分,摘录几点,希望对本章内容编排的理解有帮助: 1. 统计学习三要素对理解统计学习方法起到提纲挈领的作用 2. 本书主要…

测试Oracle统计信息的导出导入

背景:有时我们会希望可以对Oracle的统计信息整体进行导出导入.比如在数据库迁移前后,希望统计信息保持不变;又比如想对统计信息重新进行收集,但是担心重新收集的结果反而引发性能问题,想先保存当前的统计信息,这样即使重新收集后效果不好还可以导入之前的统计信息. Oracle提供给我们一些方法,比较常用的粒度有两种: schema级别统计信息的导出导入通过调用DBMS_STATS.EXPORT_SCHEMA_STATS和DBMS_STATS.IMPORT_SCHEMA_STATS来进行. data…

JSP使用网站访问人数统计功能，方法与技巧

实现网站访问人数统计功能的步骤: 创建静态登录页面,并指定表单提交由登录处理页面进行处理. 创建登录处理页面获得登录信息,查询数据库,判断该用户是否注册,如果该用户已注册,把已登录用户的信息保存在一个全局范围内. 在新闻发布系统左导航栏中加入超链接,用来导航到右侧的已访问人数统计页面. 创建已访问人数统计页面,从全局范围内取出访问者个数并显示. 需求: 为**系统增加已访问人数统计功能. 关键代码: 1.创建静态登录页面login2.html <form method="POST"…

『深度应用』NLP机器翻译深度学习实战课程·零（基础概念）

0.前言深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内容:(更新ing) NLP机器翻译深度学习实战课程·零(基础概念) NLP机器翻译深度学习实战课程·壹(RNN base) NLP机器翻译深度学习实战课程·贰(RNN+Attention base) NLP机器翻译深度学习实战课程·叁(CNN base) NLP机器翻译深度学习实战课程·肆(Self…

python复合数据类型以及英文词频统计

这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's', 't'] #列表->字符串 string1 = ''.join(list1) #list #列表的增删改查 list1 = list('this…

GitChat·人工智能 | 除了深度学习，机器翻译还需要啥？

本文开始要写作的时候,翻译圈里出了一个“爆炸性”的事件.6月27日下午,一个同传译员在朋友圈里爆料:某AI公司请这位译员去“扮演”机器同传,制造人工智能取代人工同传的“震撼”效果. 这个事件瞬间在译员群体的朋友圈.微博.微信群引爆了隐忍已久的火药桶.因为过去几个月来,隔三差五就冒出一个号称要取代同声传译的翻译机,尤其是一篇题为<刚刚宣告:同声传译即将消亡!>的微信文章,在六月下旬铺天盖地的充满了一堆有关的或者无关的公众号,不知道带来了几个10万+.几乎每个翻译行业的从业者,都收到了朋友略带同情…

hadoop学习笔记：运行wordcount对文件字符串进行统计案例

文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境,简单模拟了线上上的hadoop真实分布式集群,主要用于业余学习大数据相关体系. 其中,一台服务器作为NameNode,一台作为Secondary NameNode,剩下两台当做DataNodes节点服务器,类似下面这样一个架构-- NameNode Secondary NameNode DataNodes master1(192.168.200.111) √ master2(192.168.200.112) √ sla…

请收好这份NLP热门词汇解读

文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 微软研究院AI头条编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Transformer.BERT.无监督机器翻译,这些词汇仿佛在一夜之间就进入了人们的视野.你知道它们具体都是什么意思吗?今天,我们就将为大家介绍三个NLP领域的热门词汇. 01Transformer Transformer在2017年由Google在题为<Attention Is All You Need…

短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记

最近学习了一篇ACL会议上的文章,讲的是做一个短文对话的神经反映机, 原文: 会议:ACL(2015) 文章条目: Lifeng Shang, Zhengdong Lu, Hang Li: Neural Responding Machine for Short-Text Conversation. 1577-1586 写下学习笔记: 拓展:Attention Model 注意力模型,本文中提到所采用的Encoder-Decoder框架. 可以把它看作适合处理由一个句子(或篇章)生成另外一个…

Sequence to Sequence Learning with Neural Networks论文阅读

论文下载作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列.此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列(下文简称源序列)转化为特定维度的向量,然后另一个深层LSTM将此向量解码成相应的另一语言序列(下文简称目标序列).我个人理解是,假设要将中文翻译成法语,那么首先将中文作为输入,编码成英语,然后再将英语解码成法语.这种模型与基于短语的统计机器翻译(Static Machine Translation…

从决策树学习谈到贝叶斯分类算法、EM、HMM --别人的，拷来看看

从决策树学习谈到贝叶斯分类算法.EM.HMM 引言最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考.行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉. 本文借鉴和参考了两本书,…

LSTM/RNN的应用Case

作者:许铁-巡洋舰科技链接:https://www.zhihu.com/question/37082800/answer/126430702来源:知乎著作权归作者所有,转载请联系作者获得授权. 作者:许铁-巡洋舰科技链接:循环神经网络RNN打开手册 - 混沌巡洋舰 - 知乎专栏来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 最近朋友前小伙伴都已经传播疯了的谷歌翻译,实现了令人惊艳的性能.这里的技术核心, 就是RNN- 我们常说的传说中的循环神经网络. RNN可以称…

从决策树学习谈到贝叶斯分类算法、EM、HMM

从决策树学习谈到贝叶斯分类算法.EM.HMM (Machine Learning & Recommend Search交流新群:172114338) 引言 log0为0). 如果写代码实现熵的计算,则例如以下所看到的: //依据详细属性和值来计算熵 double ComputeEntropy(vector <vector <string> > remain_state, string attribute, string value,bool i…

论文翻译：BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or −1

目录摘要引言 1.BinaryNet 符号函数梯度计算和累积通过离散化传播梯度一些有用的成分算法1 使用BinaryNet训练DNN 算法2 批量标准化转换(Ioffe和Szegedy,2015),适用于小批量激活x. 算法3 ADAM学习规则(Kingma&Ba,2014). 2.基准测试结果 MLP on MNIST ConvNet on CIFAR-10 ConvNet on SVHN 3.在运行时更快第一层 4.相关工作结论参考资料论文地址:https://arxiv…

初识Attention机制(NLP领域)

Attention 机制. 参考:https://blog.csdn.net/xiewenbo/article/details/79382785 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词.AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效.听起来AM很高大上,其实它的基本思想是相当直观简洁的. 1.引言机器学习领域中的Attention Model这个名字,是从认知心理学里面的人脑注意…

[转]语言模型训练工具SRILM

SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别.机器翻译等领域.这个工具包包含一组C++类库.一组进行语言模型训练和应用的可执行程序等.利用它可以非常方便地训练和应用语言模型.给定一组连续的词,调用SRILM提供的接口,可以得到这组词出现的概率. http://www.jianshu.com/p/5b1…

【NLP】Attention Model（注意力模型）学习总结

最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制(2017版) 张俊林的博客,不过添加了一些个人的思考与理解过程.在github上找到一份基于keras框架实现的可运行的注意模型代码:Attention_Network_With_Keras.如有不足之处,欢迎交流指教. 注意力模型:对目标数据进行加权变化.人脑的注意力模型,说到底是一种资源分配模型…