pytorch seq2seq闲聊机器人加入attention机制

attention.py

"""

实现attention

"""

import torch

import torch.nn as nn

import torch.nn.functional as F

import config

class Attention(nn.Module):

    def __init__(self,method="general"):

        super(Attention,self).__init__()

        assert method in ["dot","general","concat"],"attention method error"

        self.method = method

        if method == "general":

            self.W = nn.Linear(config.chatbot_encoder_hidden_size*2,config.chatbot_encoder_hidden_size*2,bias=False)

        if method == "concat":

            self.W = nn.Linear(config.chatbot_decoder_hidden_size*4,config.chatbot_decoder_hidden_size*2,bias=False)

            self.V = nn.Linear(config.chatbot_decoder_hidden_size*2,1,bias=False)

    def forward(self,decoder_hidden,encoder_outputs):

        if self.method == "dot":

            return self.dot_score(decoder_hidden,encoder_outputs)

        elif self.method == "general":

            return self.general_socre(decoder_hidden,encoder_outputs)

        elif self.method == "concat":

            return self.concat_socre(decoder_hidden,encoder_outputs)

    def dot_score(self,decoder_hidden,encoder_outputs):

        """H_t^T * H_s

        :param decoder_hidden:[1,batch_size,128*2] --->[batch_size,128*2,1]

        :param encoder_outputs:[batch_size,encoder_max_len,128*2] --->[batch_size,encoder_max_len,128*2]

        :return:attention_weight:[batch_size,encoder_max_len]

        """

        decoder_hidden_viewed = decoder_hidden.squeeze(0).unsqueeze(-1) #[batch_size,128*2,1]

        attention_weight = torch.bmm(encoder_outputs,decoder_hidden_viewed).squeeze(-1)

        return F.softmax(attention_weight,dim=-1)

    def general_socre(self,decoder_hidden,encoder_outputs):

        """

        H_t^T *W* H_s

        :param decoder_hidden:[1,batch_size,128*2]-->[batch_size,decode_hidden_size] *[decoder_hidden_size,encoder_hidden_size]--->[batch_size,encoder_hidden_size]

        :param encoder_outputs:[batch_size,encoder_max_len,128*2]

        :return:[batch_size,encoder_max_len]

        """

        decoder_hidden_processed =self.W(decoder_hidden.squeeze(0)).unsqueeze(-1) #[batch_size,encoder_hidden_size*2,1]

        attention_weight = torch.bmm(encoder_outputs, decoder_hidden_processed).squeeze(-1)

        return F.softmax(attention_weight, dim=-1)

    def concat_socre(self,decoder_hidden,encoder_outputs):

        """

        V*tanh(W[H_t,H_s])

        :param decoder_hidden:[1,batch_size,128*2]

        :param encoder_outputs:[batch_size,encoder_max_len,128*2]

        :return:[batch_size,encoder_max_len]

        """

        #1. decoder_hidden:[batch_size,128*2] ----> [batch_size,encoder_max_len,128*2]

        # encoder_max_len 个[batch_size,128*2] -->[encoder_max_len,bathc_size,128*2] -->transpose--->[]

        encoder_max_len = encoder_outputs.size(1)

        batch_size = encoder_outputs.size(0)

        decoder_hidden_repeated = decoder_hidden.squeeze(0).repeat(encoder_max_len,1,1).transpose(0,1) #[batch_size,max_len,128*2]

        h_cated = torch.cat([decoder_hidden_repeated,encoder_outputs],dim=-1).view([batch_size*encoder_max_len,-1]) #[batch_size*max_len,128*4]

        attention_weight = self.V(F.tanh(self.W(h_cated))).view([batch_size,encoder_max_len]) #[batch_size*max_len,1]

        return F.softmax(attention_weight,dim=-1)

　　decoder.py

"""

实现解码器

"""

import torch.nn as nn

import config

import torch

import torch.nn.functional as F

import numpy as np

import random

from chatbot.attention import Attention

class Decoder(nn.Module):

    def __init__(self):

        super(Decoder,self).__init__()

        self.embedding = nn.Embedding(num_embeddings=len(config.target_ws),

                                      embedding_dim=config.chatbot_decoder_embedding_dim,

                                      padding_idx=config.target_ws.PAD)

        #需要的hidden_state形状：[1,batch_size,64]

        self.gru = nn.GRU(input_size=config.chatbot_decoder_embedding_dim,

                          hidden_size=config.chatbot_decoder_hidden_size,

                          num_layers=config.chatbot_decoder_number_layer,

                          bidirectional=False,

                          batch_first=True,

                          dropout=config.chatbot_decoder_dropout)

        #假如encoder的hidden_size=64，num_layer=1 encoder_hidden :[2,batch_sizee,64]

        self.fc = nn.Linear(config.chatbot_decoder_hidden_size,len(config.target_ws))

        self.attn = Attention(method="general")

        self.fc_attn = nn.Linear(config.chatbot_decoder_hidden_size * 2, config.chatbot_decoder_hidden_size, bias=False)

    def forward(self, encoder_hidden,target,encoder_outputs):

        # print("target size:",target.size())

        #第一个时间步的输入的hidden_state

        decoder_hidden = encoder_hidden  #[1,batch_size,128*2]

        #第一个时间步的输入的input

        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor([[config.target_ws.SOS]]*batch_size).to(config.device)         #[batch_size,1]

        # print("decoder_input:",decoder_input.size())

        #使用全为0的数组保存数据，[batch_size,max_len,vocab_size]

        decoder_outputs = torch.zeros([batch_size,config.chatbot_target_max_len,len(config.target_ws)]).to(config.device)

        if random.random()>0.5:    #teacher_forcing机制

            for t in range(config.chatbot_target_max_len):

                decoder_output_t,decoder_hidden = self.forward_step(decoder_input,decoder_hidden,encoder_outputs)

                decoder_outputs[:,t,:] = decoder_output_t

                #获取当前时间步的预测值

                value,index = decoder_output_t.max(dim=-1)

                decoder_input = index.unsqueeze(-1)  #[batch_size,1]

                # print("decoder_input:",decoder_input.size())

        else:

            for t in range(config.chatbot_target_max_len):

                decoder_output_t, decoder_hidden = self.forward_step(decoder_input, decoder_hidden,encoder_outputs)

                decoder_outputs[:, t, :] = decoder_output_t

                #把真实值作为下一步的输入

                decoder_input = target[:,t].unsqueeze(-1)

                # print("decoder_input size:",decoder_input.size())

        return decoder_outputs,decoder_hidden

    def forward_step(self,decoder_input,decoder_hidden,encoder_outputs):

        '''

        计算一个时间步的结果

        :param decoder_input: [batch_size,1]

        :param decoder_hidden: [1,batch_size,128*2]

        :return:

        '''

        decoder_input_embeded = self.embedding(decoder_input)

        # print("decoder_input_embeded:",decoder_input_embeded.size())

        #out:[batch_size,1,128*2]

        #decoder_hidden :[1,bathc_size,128*2]

        # print(decoder_hidden.size())

        out,decoder_hidden = self.gru(decoder_input_embeded,decoder_hidden)

        ##### 开始attention ############

        ### 1. 计算attention weight

        attn_weight = self.attn(decoder_hidden,encoder_outputs)  #[batch_size,1,encoder_max_len]

        ### 2. 计算context vector

        #encoder_ouputs :[batch_size,encoder_max_len,128*2]

        context_vector = torch.bmm(attn_weight.unsqueeze(1),encoder_outputs).squeeze(1) #[batch_szie,128*2]

        ### 3. 计算 attention的结果

        #[batch_size,128*2]  #context_vector:[batch_size,128*2] --> 128*4

        #attention_result = [batch_size,128*4] --->[batch_size,128*2]

        attention_result = torch.tanh(self.fc_attn(torch.cat([context_vector,out.squeeze(1)],dim=-1)))

        # attention_result = torch.tanh(torch.cat([context_vector,out.squeeze(1)],dim=-1))

        #### attenion 结束

        # print("decoder_hidden size:",decoder_hidden.size())

        #out ：【batch_size,1,hidden_size】

        # out_squeezed = out.squeeze(dim=1) #去掉为1的维度

        out_fc = F.log_softmax(self.fc(attention_result),dim=-1) #[bathc_size,vocab_size]

        # print("out_fc:",out_fc.size())

        return out_fc,decoder_hidden

    def evaluate(self,encoder_hidden,encoder_outputs):

        # 第一个时间步的输入的hidden_state

        decoder_hidden = encoder_hidden  # [1,batch_size,128*2]

        # 第一个时间步的输入的input

        batch_size = encoder_hidden.size(1)

        decoder_input = torch.LongTensor([[config.target_ws.SOS]] * batch_size).to(config.device)  # [batch_size,1]

        # print("decoder_input:",decoder_input.size())

        # 使用全为0的数组保存数据，[batch_size,max_len,vocab_size]

        decoder_outputs = torch.zeros([batch_size, config.chatbot_target_max_len, len(config.target_ws)]).to(

            config.device)

        predict_result = []

        for t in range(config.chatbot_target_max_len):

            decoder_output_t, decoder_hidden = self.forward_step(decoder_input, decoder_hidden,encoder_outputs)

            decoder_outputs[:, t, :] = decoder_output_t

            # 获取当前时间步的预测值

            value, index = decoder_output_t.max(dim=-1)

            predict_result.append(index.cpu().detach().numpy()) #[[batch],[batch]...]

            decoder_input = index.unsqueeze(-1)  # [batch_size,1]

            # print("decoder_input:",decoder_input.size())

            # predict_result.append(decoder_input)

        #把结果转化为ndarray，每一行是一条预测结果

        predict_result = np.array(predict_result).transpose()

        return decoder_outputs, predict_result

　　seq2seq.py

"""

完成seq2seq模型

"""

import torch.nn as nn

from chatbot.encoder import Encoder

from chatbot.decoder import Decoder

class Seq2Seq(nn.Module):

    def __init__(self):

        super(Seq2Seq,self).__init__()

        self.encoder = Encoder()

        self.decoder = Decoder()

    def forward(self, input,input_len,target):

        encoder_outputs,encoder_hidden = self.encoder(input,input_len)

        decoder_outputs,decoder_hidden = self.decoder(encoder_hidden,target,encoder_outputs)

        return decoder_outputs

    def evaluate(self,input,input_len):

        encoder_outputs, encoder_hidden = self.encoder(input, input_len)

        decoder_outputs, predict_result = self.decoder.evaluate(encoder_hidden,encoder_outputs)

        return decoder_outputs,predict_result

pytorch seq2seq闲聊机器人加入attention机制的更多相关文章

pytorch seq2seq闲聊机器人beam search返回结果
decoder.py """ 实现解码器 """ import heapq import torch.nn as nn import con ...
pytorch seq2seq闲聊机器人
cut_sentence.py """ 实现句子的分词注意点: 1. 实现单个字分词 2. 实现按照词语分词 2.1 加载词典 3. 使用停用词 "" ...
pytorch seq2seq模型中加入teacher_forcing机制
在循环内加的teacher forcing机制,这种为目标确定的时候,可以这样加. 目标不确定,需要在循环外加. decoder.py 中的修改 """ 实现解码器 &q ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
pytorch笔记：09)Attention机制
刚从图像处理的hole中攀爬出来,刚走一步竟掉到了另一个hole(fire in the hole*▽*) 1.RNN中的attentionpytorch官方教程:https://pytorch.or ...
DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）
两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarizati ...
完全图解RNN、RNN变体、Seq2Seq、Attention机制
完全图解RNN.RNN变体.Seq2Seq.Attention机制本文主要是利用图片的形式,详细地介绍了经典的RNN.RNN几个重要变体,以及Seq2Seq模型.Attention机制.希望这篇文章 ...
深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（三）引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...

随机推荐

Arcgis连接SQL Server提示试图使用不支持的旧版SQL Server客户端通信软件进行连接
一般提示这种错误的是arcgis服务区和SQL server服务器不在同一台电脑上,但在同一个局域网. 遇到这种问题是arcgis 服务器客户端连接SQL server数据库有问题,要么是客户端没有安 ...
Jmeter 中 Bean Shell 之全局变量
1.新建测试计划>线程组 > http 请求 -登录获取token , 可以参照我以前写的这篇博客 https://www.cnblogs.com/cyit/p/12632445.htm ...
Python itchat库（1）
一.实验环境在cmd中输入以下命令,完成微信的API包itchat的安装. pip install itchat 注意这里有个问题,因为电脑里既有Python3.6,又有anaconda.所以一定要 ...
A换算时间（只想开学）HDU 6556
题目链接思路如下把时间转化为 24小时制下进行考虑,首先我们要明白(在24小时制下):12 点表示是下午PM ,而 24点表示的是明天的 0点(12小时制下),这两个地方需要特殊考虑题解如下 # ...
B. The Monster and the Squirrel
B. The Monster and the Squirrel Ari the monster always wakes up very early with the first ray of the ...
用python写项目之图书管理系统
1.功能介绍: (1).添加新书:输入要添加的书名.存放的书架号.价格. (2).修改书架:输入要书名,然后对其修改书架号.价格 (3).删除书架:输入书名,然后对应删除书名.书架号.价格 (4).查 ...
STM32F103ZET6 PWM输出
1.通用定时器的PWM功能 STM32F103ZET6有4个通用定时器,分别是TIM2.TIM3.TIM4.TIM5. 通用定时器由一个可编程预分频器驱动的16位自动装载计数器构成. 通用定时器的很多 ...
逍遥云天 H5外部浏览器直接调起微信——通过url协议 weixin:// 判断是否安装微信及启动微信
h5分享到微信,h5使用微信支付这些功能,都需要先判断是否安装微信客户端,如果已安装就启动微信,如果没有安装微信,就提示用户前去安装. 我们可以通过访问微信提供的URL协议(weixin://)来实现 ...
1031 Hello World for U (20分)
Given any string of N (≥) characters, you are asked to form the characters into the shape of U. For ...
浅谈C++三种传参方式
浅谈C++三种传参方式 C++给函数传参中,主要有三种方式:分别是值传递.指针传递和引用传递. 下面通过讲解和实例来说明三种方式的区别. 值传递我们都知道,在函数定义括号中的参数是形参,是给函数内专 ...

pytorch seq2seq闲聊机器人加入attention机制

pytorch seq2seq闲聊机器人加入attention机制的更多相关文章

随机推荐

热门专题