深度学习--LSTM网络、使用方法、实战情感分类问题

1.LSTM基础

长短期记忆网络（Long Short-Term Memory，简称LSTM），是RNN的一种，为了解决RNN存在长期依赖问题而设计出来的。

LSTM的基本结构：

2.LSTM的具体说明

LSTM与RNN的结构相比，在参数更新的过程中，增加了三个门，由左到右分别是遗忘门（也称记忆门）、输入门、输出门。

图片来源：

https://www.elecfans.com/d/672083.html

1.点乘操作决定多少信息可以传送过去，当为0时，不传送；当为1时，全部传送。

2.1 遗忘门

对于输入xt和ht-1，遗忘门会输出一个值域为[0, 1]的数字，放进Ct−1中。当为0时，全部删除；当为1时，全部保留。

2.2 输入门

对于对于输入xt和ht-1，输入门会选择信息的去留，并且通过tanh激活函数更新临时Ct

通过遗忘门和输入门输出累加，更新最终的Ct

2.3输出门

通过Ct和输出门，更新memory

3.PyTorch的LSTM使用方法

__ init __(input _ size, hidden_size,num _layers)
LSTM.foward():

out,[ht,ct] = lstm(x,[ht-1,ct-1])

x:[一句话单词数，batch几句话，表示的维度]

h/c:[层数，batch，记忆(参数)的维度]

out:[一句话单词数，batch，参数的维度]

import torch

import torch.nn as nn

lstm = nn.LSTM(input_size = 100,hidden_size = 20,num_layers = 4)

print(lstm)

#LSTM(100, 20, num_layers=4)

x = torch.randn(10,3,100)

out,(h,c)=lstm(x)

print(out.shape,h.shape,c.shape)

#torch.Size([10, 3, 20]) torch.Size([4, 3, 20]) torch.Size([4, 3, 20])

单层使用方法：

cell = nn.LSTMCell(input_size = 100,hidden_size=20)

x = torch.randn(10,3,100)

h = torch.zeros(3,20)

c = torch.zeros(3,20)

for xt in x:

    h,c = cell(xt,[h,c])

print(h.shape,c.shape)

#torch.Size([3, 20]) torch.Size([3, 20])

LSTM实战--情感分类问题

Google CoLab环境，需要魔法。

import torch

from torch import nn, optim

from torchtext import data, datasets

print('GPU:', torch.cuda.is_available())

torch.manual_seed(123)

TEXT = data.Field(tokenize='spacy')

LABEL = data.LabelField(dtype=torch.float)

train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)

print('len of train data:', len(train_data))

print('len of test data:', len(test_data))

print(train_data.examples[15].text)

print(train_data.examples[15].label)

# word2vec, glove

TEXT.build_vocab(train_data, max_size=10000, vectors='glove.6B.100d')

LABEL.build_vocab(train_data)

batchsz = 30

device = torch.device('cuda')

train_iterator, test_iterator = data.BucketIterator.splits(

    (train_data, test_data),

    batch_size = batchsz,

    device=device

)

class RNN(nn.Module):

    def __init__(self, vocab_size, embedding_dim, hidden_dim):

        """

        """

        super(RNN, self).__init__()

        # [0-10001] => [100]

        self.embedding = nn.Embedding(vocab_size, embedding_dim)

        # [100] => [256]

        self.rnn = nn.LSTM(embedding_dim, hidden_dim, num_layers=2,

                           bidirectional=True, dropout=0.5)

        # [256*2] => [1]

        self.fc = nn.Linear(hidden_dim*2, 1)

        self.dropout = nn.Dropout(0.5)

    def forward(self, x):

        """

        x: [seq_len, b] vs [b, 3, 28, 28]

        """

        # [seq, b, 1] => [seq, b, 100]

        embedding = self.dropout(self.embedding(x))

        # output: [seq, b, hid_dim*2]

        # hidden/h: [num_layers*2, b, hid_dim]

        # cell/c: [num_layers*2, b, hid_di]

        output, (hidden, cell) = self.rnn(embedding)

        # [num_layers*2, b, hid_dim] => 2 of [b, hid_dim] => [b, hid_dim*2]

        hidden = torch.cat([hidden[-2], hidden[-1]], dim=1)

        # [b, hid_dim*2] => [b, 1]

        hidden = self.dropout(hidden)

        out = self.fc(hidden)

        return out

rnn = RNN(len(TEXT.vocab), 100, 256)

pretrained_embedding = TEXT.vocab.vectors

print('pretrained_embedding:', pretrained_embedding.shape)

rnn.embedding.weight.data.copy_(pretrained_embedding)

print('embedding layer inited.')

optimizer = optim.Adam(rnn.parameters(), lr=1e-3)

criteon = nn.BCEWithLogitsLoss().to(device)

rnn.to(device)

import numpy as np

def binary_acc(preds, y):

    """

    get accuracy

    """

    preds = torch.round(torch.sigmoid(preds))

    correct = torch.eq(preds, y).float()

    acc = correct.sum() / len(correct)

    return acc

def train(rnn, iterator, optimizer, criteon):

    avg_acc = []

    rnn.train()

    for i, batch in enumerate(iterator):

        # [seq, b] => [b, 1] => [b]

        pred = rnn(batch.text).squeeze(1)

        #

        loss = criteon(pred, batch.label)

        acc = binary_acc(pred, batch.label).item()

        avg_acc.append(acc)

        optimizer.zero_grad()

        loss.backward()

        optimizer.step()

        if i%10 == 0:

            print(i, acc)

    avg_acc = np.array(avg_acc).mean()

    print('avg acc:', avg_acc)

def eval(rnn, iterator, criteon):

    avg_acc = []

    rnn.eval()

    with torch.no_grad():

        for batch in iterator:

            # [b, 1] => [b]

            pred = rnn(batch.text).squeeze(1)

            #

            loss = criteon(pred, batch.label)

            acc = binary_acc(pred, batch.label).item()

            avg_acc.append(acc)

    avg_acc = np.array(avg_acc).mean()

    print('>>test:', avg_acc)

for epoch in range(10):

    eval(rnn, test_iterator, criteon)

    train(rnn, train_iterator, optimizer, criteon)

深度学习--LSTM网络、使用方法、实战情感分类问题的更多相关文章

深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
深度学习Anchor Boxes原理与实战技术
深度学习Anchor Boxes原理与实战技术目标检测算法通常对输入图像中的大量区域进行采样,判断这些区域是否包含感兴趣的目标,并调整这些区域的边缘,以便更准确地预测目标的地面真实边界框.不同的模型 ...
深度学习GPU加速配置方法
深度学习GPU加速配置方法一.英伟达官方驱动及工具安装首先检查自己的电脑驱动版本,未更新至最新建议先将驱动更新至最新,然后点击Nvidia控制面板 2.在如下界面中点击系统信息,点击显示可以看见当 ...
用深度学习LSTM炒股：对冲基金案例分析
英伟达昨天一边发布“全球最大的GPU”,一边经历股价跳水20多美元,到今天发稿时间也没恢复过来.无数同学在后台问文摘菌,要不要抄一波底嘞? 今天用深度学习的序列模型预测股价已经取得了不错的效果,尤其是 ...
【Deeplearning】（转）深度学习知识网络
转自深度学习知识框架,小象牛逼! 图片来自小象学院公开课,下面直接解释几条线神经网络线性回归 (+ 非线性激励) → 神经网络有线性映射关系的数据,找到映射关系,非常简单,只能描述简单的映射关系 ...
深度学习RNN实现股票预测实战（附数据、代码）
背景知识最近再看一些量化交易相关的材料,偶然在网上看到了一个关于用RNN实现股票预测的文章,出于好奇心把文章中介绍的代码在本地跑了一遍,发现可以work.于是就花了两个晚上的时间学习了下代码,顺便把 ...
深度学习的Xavier初始化方法
在tensorflow中,有一个初始化函数:tf.contrib.layers.variance_scaling_initializer.Tensorflow 官网的介绍为: variance_sca ...
深度学习模型调优方法（Deep Learning学习记录）
深度学习模型的调优,首先需要对各方面进行评估,主要包括定义函数.模型在训练集和测试集拟合效果.交叉验证.激活函数和优化算法的选择等. 那如何对我们自己的模型进行判断呢?——通过模型训练跑代码,我们可以 ...
深度学习卷积网络中反卷积/转置卷积的理解 transposed conv/deconv
搞明白了卷积网络中所谓deconv到底是个什么东西后,不写下来怕又忘记,根据参考资料,加上我自己的理解,记录在这篇博客里. 先来规范表达为了方便理解,本文出现的举例情况都是2D矩阵卷积,卷积输入和核 ...
深度学习常见的优化方法(Optimizer)总结:Adam,SGD,Momentum,AdaGard等
机器学习的常见优化方法在最近的学习中经常遇到,但是还是不够精通．将自己的学习记录下来,以备不时之需基础知识: 机器学习几乎所有的算法都要利用损失函数 lossfunction 来检验算法模型的优劣, ...

随机推荐

nodejs 连接MSSQL数据库 Setting the TLS ServerName to an IP address is not permitted by RFC 6066. This will be ignored in a future version
初学nodejs连接lmssql数据库,测试报错,查了很多资料,最后发现报这个错主要是mssql不支持https安全连接,如果不考虑这个,仅做测试连接,就很容易,直接改个参数就可以了: const s ...
解决和根源：Unsolicited response received on idle HTTP channel starting with xxx
环境:golang,使用http client,服务器:iis +aspx.net动作:head请求或其他此问题见于各种请求情况.核心是,http在活动期间收到了非预期的信息.一开始我也很纳-闷,因为 ...
有关C++数据结构
1.临时变量的访问速度远远大于成员变量. 2.C++中唯一一种函数返回值可以做左值的就是引用,本质上也是指针. 3.成员函数末尾加const,表示只读成员函数,不能修改成员变量的值.只读成员函数仅仅用 ...
ArcEngine构造多部件
Windows系统镜像下载站合集
Windows系统镜像下载站合集https://latest10.win/https://msdn.itellyou.cn/https://hellowindows.cn/https://www.im ...
Java学习小总结它又又又又来啦！
又到了输出总结的时候啦,话不多说,直接开始输出! 一.final final修饰符的主要作用就是强调它所修饰的板块的"最后"性: 若是修饰成员方法:那么成员方法不可以再被重写: 若 ...
D - Swap Free Gym - 102423D 二分图性质：补图最大团 = 点的个数 - 最大匹配数
题意:给你一个串的某些全排列,没有重的,让你求一个最大的集合能有多少个元素,集合的满足条件:交换一个串的任意两个位置上的字母,不能变成集合里的另一个串. 思路:如果一个串不能通过交换一次字母位置变成另 ...
Innodb的Buffer Pool
什么是Buffer Pool 为了缓存磁盘中的页,MySQL服务器启动的时候就向操作系统申请了一片连续的内存,他们给这片内存起了个名,叫做Buffer Pool(中文名是缓冲池).innodb_buf ...
分析document文档中script标签获取抖音无水印视频
思路分析使用 playwright 模拟浏览器打开分享链接获取播放页面 html 信息解析播放页面的 video标签,video标签的src属性就是视频的地址这种模式会触发抖音的风控机制 ...
Go语言：一文看懂什么是DI依赖注入（dependency injection）设计模式
前言: 本文主要介绍的是Goalng中关于 DI 的部分,前一部分会先通过典型的面向对象语言Java引入DI这个概念仅供初学者理解使用,文章如有纰漏敬请指出本文涉及到的知识面较为零散,其中包含面向 ...

深度学习--LSTM网络、使用方法、实战情感分类问题

深度学习--LSTM网络、使用方法、实战情感分类问题

1.LSTM基础

2.LSTM的具体说明

2.1 遗忘门

2.2 输入门

2.3输出门

3.PyTorch的LSTM使用方法

LSTM实战--情感分类问题

深度学习--LSTM网络、使用方法、实战情感分类问题的更多相关文章

随机推荐

热门专题