原文地址 :[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate (arxiv.org) 读这篇主要希望学习了解Encoder-Decoder结构…
读论文 Neural Machine Translation by Jointly Learning to Align and Translate 这个论文是在NLP中第一个使用attention机制的论文.他们把attention机制用到了神经网络机器翻译(NMT)上.NMT其实就是一个典型的sequence to sequence模型,也就是一个encoder to decoder模型,传统的NMT使用两个RNN,一个RNN对源语言进行编码,将源语言编码到一个固定维度的中间向量,然后在使用一…
论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 背景及问题 背景: 翻译: 翻译模型学习条件分布后,给定一个源句,通过搜索最大条件概率的句子,可以生成相应的翻译. 神经网络翻译:两个组件:第一个:合成一个源句子x:第二个:解码一个目标句子y. 问题:固定长度向量是编码器 - 解码器架构性能提升的瓶颈. 本文主要思想 本文提出:允许模型自动(软)搜索与预测目标单词相关的源句 --- 扩展的编码器…
Neural Machine Translation Welcome to your first programming assignment for this week! You will build a Neural Machine Translation (NMT) model to translate human readable dates ("25th of June, 2009") into machine readable dates ("2009-06-25…
Neural Machine Translation Welcome to your first programming assignment for this week! You will build a Neural Machine Translation (NMT) model to translate human readable dates ("25th of June, 2009") into machine readable dates ("2009-06-25…
转载并翻译Jay Alammar的一篇博文:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention) 原文链接:https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/ 神经机器翻译模型(基于注意力机制的Seq2…
这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文,不过我没细看 Effective Approaches to Attention-based Neural Machine Translation 中英文对照翻译 - 一译的文章 - 知乎 https://zhuanlan.zhihu.com/p/38205832 看这个论文的时候我主要是从第三小节开始看起的,也就是 attention-based models 我们基于attentio…
[softmax分类器的加速器] https://www.tensorflow.org/api_docs/python/tf/nn/sampled_softmax_loss This is a faster way to train a softmax classifier over a huge number of classes. [分类的结果集过大,选取子集] https://www.tensorflow.org/api_guides/python/nn#Candidate_Samplin…
The Noise Channel Model \(p(e)\): the language Model \(p(f|e)\): the translation model where, \(e\): English language; \(f\): French Language. 由法语翻译成英语的概率: \[p(e|f)=\frac{p(e,f)}{p(f)}=\frac{p(e)p(f|e)}{\sum_e{p(e)p(f|e)}}\] \[arg\max_e p(e|f)=arg\ma…
(1)用对抗性的源实例攻击翻译模型; (2)使用对抗性目标输入来保护翻译模型,提高其对对抗性源输入的鲁棒性. 生成对抗输入:基于梯度 (平均损失)  ->  AdvGen 我们的工作处理由白盒NMT模型联合生成的扰动样本  ->  知道受攻击模型的参数 ADVGEN包括encoding, decoding: (1)通过生成对训练损失敏感的对抗性源输入来攻击NMT模型; (2)用对抗性目标输入对NMT模型进行了防御,目的是降低相应对抗性源输入的预测误差. 贡献: 1. 研究了一种用于生成反例的白…
seq2seq 模型在广泛的任务比如机器翻译,语音识别,文本总结中取得了巨大的成功.这个教程给读者 seq2seq 模型一个完整的理解,并且展示如何从原型建立一个有竞争力的 seq2seq 模型.我们专注于神经机器翻译任务,这是 seq2seq 模型取得的第一个广泛的成功.下面包含的代码是轻量级,高质量,产品级,并且包含了最新的研究思路. 我们通过以下实现了这个目标: 1.使用了最近的 decoder attention API 2.包含了我们强大的简历 RNN 和 seq2seq 模型的经验.…
1. 前言 本文介绍一种无监督的机器翻译的模型.无监督机器翻译最早是<UNSUPERVISED NEURAL MACHINE TRANSLATION>提出.这个模型主要的特点,无需使用平行语料库,使用去噪和回译的步骤构建NMT系统. 2018年Facebook人工智能实验室再次公布了有关无监督神经网络翻译的最新模型<Phrase-Based & Neural Unsupervised Machine Translation>,相当于用 10 万个参考译文训练过的监督模型.&…
1. Neural Machine Translation 下面将构建一个神经机器翻译(NMT)模型,将人类可读日期 ("25th of June, 2009") 转换为机器可读日期 ("2009-06-25"). 使用 attention model. from keras.layers import Bidirectional, Concatenate, Permute, Dot, Input, LSTM, Multiply from keras.layers…
这是一篇CMU发的神经机器翻译教程论文,很全很详细,适合新手阅读,即使没有什么MT.DNN.RNN的基础知识. 另外它还配套了CMU自己的一个框架DyNet的练习. 全文共9章,从统计语言模型到DNN到RNN到Encoder-Deconder再到注意力模型,中间穿插了许多技巧方法,如SGD.其他梯度方法.Beam-search.梯度消失/爆炸.LSTM.GRU等等,非常全面.链接如下:https://arxiv.org/abs/1703.01619 百度学术地址:http://xueshu.ba…
基于TensorRT优化的Machine Translation 机器翻译系统用于将文本从一种语言翻译成另一种语言.递归神经网络(RNN)是机器翻译中最流行的深度学习解决方案之一. TensorRT机器翻译示例的一些示例包括: Neural Machine Translation (NMT) Using A Sequence To Sequence (seq2seq) Model Building An RNN Network Layer By Layer 4.1. Neural Machine…
标题:Neural Machine Reading Comprehension: Methods and Trends 作者:Shanshan Liu, Xin Zhang, Sheng Zhang, Hui Wang, Weiming Zhang 链接:https://arxiv.org/pdf/1907.01118.pdf 摘要:过去几年里,随着深度学习的出现,机器阅读理解(其要求机器基于给定的上下文回答问题)已经赢得了越来越广泛的关注.虽然基于深度学习的机器阅读理解研究正蓬勃发展,但却没有…
转载:http://blog.csdn.net/top_code/article/details/50901623 在上一篇文章中,我们使用Netty4本身自带的ObjectDecoder,ObjectEncoder来实现POJO对象的传输,但其使用的是Java内置的序列化,由于Java序列化的性能并不是很好,所以很多时候我们需要用其他高效的序列化方式,例如 protobuf,Hessian, Kryo,Jackson,fastjson等. 本文中Java序列化不是重点,对Java序列化不熟悉的…
package com.mxgraph.online; import java.util.Arrays; /** A very fast and memory efficient class to encode and decode to and from BASE64 in full accordance * with RFC 2045.<br><br> * On Windows XP sp1 with 1.4.2_04 and later ;), this encoder an…
abstract句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力.手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则.我们发现和短语长度相关的结构特征是弱特征,但是与fluency强相关,基于整个结构特征的分类器可以在句子fluency成对比较和区分机器翻译和人类翻译上取得高准确率.我们也测试了这个假设即,学到的模型可以捕捉人类创作文本的普遍的fluency性质.实验结果不支持这种假设.同时结构特征和基于结构特征的…
转载:http://blog.csdn.net/top_code/article/details/50901623 在上一篇文章中,我们使用Netty4本身自带的ObjectDecoder,ObjectEncoder来实现POJO对象的传输,但其使用的是Java内置的序列化,由于Java序列化的性能并不是很好,所以很多时候我们需要用其他高效的序列化方式,例如 protobuf,Hessian, Kryo,Jackson,fastjson等. 本文中Java序列化不是重点,对Java序列化不熟悉的…
摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上取得最大的准确率. 在 CIFAR-10数据集上,基于本文提出的方法生成的模型在测试集上得到结果优于目前人类设计的所有模型.测试集误差率为3.65%,比之前使用相似结构的最先进的模型结构还有低0.09%,速度快1.05倍. 在 Penn Treebank数据集上,根据本文算法得到的模型能够生成一个新…
深度学习课程笔记(十七)Meta-learning (Model Agnostic Meta Learning) 2018-08-09 12:21:33 The video tutorial can be found from: Model Agnostic Meta Learning Related Videos: My talk for Model Agnostic Meta Learning with domain adaptation Paper: https://arxiv.org/p…
深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward.在某些任务上,也很难定义 reward.如:自动驾驶,撞死一人,reward为多少,撞到一辆车,reward 为多少,撞到小动物,reward 为多少,撞到 X,reward 又是多少,诸如此类...而某些人类所定义的 reward,可能会造成不可控制的行为,如:我们想让 a…
1.主要完成的任务是能够将英文转译为法文,使用了一个encoder-decoder模型,在encoder的RNN模型中是将序列转化为一个向量.在decoder中是将向量转化为输出序列,使用encoder-decoder能够加入词语与词语之间的顺序信息. 2.另一个任务是将序列表达为一个向量,利用向量能够清楚的看出那些语义上相近的词聚集在一起. 3.在设计RNN的隐藏层时,在读入或产生序列加入了reset和update门,可以选择丢掉记忆信息和更新记忆信息,得到了更有意义的结果. 4.两个RNN网…
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04-24 14:49:10 Paper:https://arxiv.org/pdf/1810.10804.pdf 在过去的许多年,大家一直认为网络结构的设计是人类的事情.但是,近些年 NAS 的发展,打破了这种观念,用自动化的方法在给定的数据上设计合适的网络结构,变的势不可挡.本文在语义分割的任务上,尝…
机器学习 - 维基百科,自由的百科全书 https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0 机器学习是人工智能的一个分支.人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然.清晰的脉络.显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题.机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.计算复杂性理论等多门学科.…
Teaching computers to learn to perform tasks from past experiences(recorded data) 一.Decision Tree(决策树) --Example:for recommend app 二.Naive Bayes Algorithm(朴素贝叶斯) --Example:for detecting Spam e-mails(垃圾邮件) 三.Gradient descent(梯度下降) --Example:Minimize t…
import torch import torch.nn as nn import torch.utils.data as Data import torchvision import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from matplotlib import cm import numpy as np # torch.manual_seed(1) # reproducible # Hyper P…
5 Neural Networks (part two) content: 5 Neural Networks (part two) 5.1 cost function 5.2 Back Propagation 5.3 神经网络总结 接上一篇4. Neural Networks (part one).本文将先定义神经网络的代价函数,然后介绍逆向传播(Back Propagation: BP)算法,它能有效求解代价函数对连接权重的偏导,最后对训练神经网络的过程进行总结. 5.1 cost func…
4. Neural Networks (part one) Content: 4. Neural Networks (part one) 4.1 Non-linear Classification. 4.2 Neural Model(神经元模型) 4.3 Forward Propagation 4.4 神经网络实现与或非门以及异或门 4.4.1 实现与或非门(AND/OR/NOT) 4.4.2 实现异或/同或门(XOR/XNOR) 4.5 Multi-class classification k…