Sentiment Analysis

Two approaches

SimpleRNNCell
- single layer
- multi-layers
RNNCell

Single layer

import os

import tensorflow as tf

import numpy as np

from tensorflow import keras

from tensorflow.keras import layers

tf.random.set_seed(22)

np.random.seed(22)

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

assert tf.__version__.startswith('2.')

batchsz = 128

# the most frequest words

total_words = 10000

max_review_len = 80

embedding_len = 100

(x_train,

 y_train), (x_test,

            y_test) = keras.datasets.imdb.load_data(num_words=total_words)

# x_train:[b, 80]

# x_test: [b, 80]

x_train = keras.preprocessing.sequence.pad_sequences(x_train,

                                                     maxlen=max_review_len)

x_test = keras.preprocessing.sequence.pad_sequences(x_test,

                                                    maxlen=max_review_len)

db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))

db_train = db_train.shuffle(1000).batch(batchsz, drop_remainder=True)

db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))

db_test = db_test.batch(batchsz, drop_remainder=True)

print('x_train shape:', x_train.shape, tf.reduce_max(y_train),

      tf.reduce_min(y_train))

print('x_test shape:', x_test.shape)

class MyRNN(keras.Model):

    def __init__(self, units):

        super(MyRNN, self).__init__()

        # [b, 64]

        self.state0 = [tf.zeros([batchsz, units])]

        self.state1 = [tf.zeros([batchsz, units])]

        # transform text to embedding representation

        # [b, 80] => [b, 80, 100]

        self.embedding = layers.Embedding(total_words,

                                          embedding_len,

                                          input_length=max_review_len)

        # [b, 80, 100] , h_dim: 64

        # RNN: cell1 ,cell2, cell3

        # SimpleRNN，units=64表示100个向量转成64个初始的状态

        self.rnn_cell0 = layers.SimpleRNNCell(units, dropout=0.5)

        self.rnn_cell1 = layers.SimpleRNNCell(units, dropout=0.5)

        # fc, [b, 80, 100] => [b, 64] => [b, 1]

        self.outlayer = layers.Dense(1)

    def call(self, inputs, training=None):

        """

        net(x) net(x, training=True) :train mode

        net(x, training=False): test

        :param inputs: [b, 80]

        :param training:

        :return:

        """

        # [b, 80]

        x = inputs

        # embedding: [b, 80] => [b, 80, 100]

        x = self.embedding(x)

        # rnn cell compute

        # [b, 80, 100] => [b, 64]

        state0 = self.state0

        state1 = self.state1

        for word in tf.unstack(x, axis=1):  # word: [b, 100]

            # h1 = x*wxh+h0*whh

            # out0: [b, 64]

            out0, state0 = self.rnn_cell0(word, state0, training)

            # out1: [b, 64]

            out1, state1 = self.rnn_cell1(out0, state1, training)

        # out: [b, 64] => [b, 1]

        x = self.outlayer(out1)

        # p(y is pos|x)

        prob = tf.sigmoid(x)

        return prob

def main():

    units = 64

    epochs = 4

    model = MyRNN(units)

    model.compile(optimizer=keras.optimizers.Adam(0.001),

                  loss=tf.losses.BinaryCrossentropy(),

                  metrics=['accuracy'])

    model.fit(db_train, epochs=epochs, validation_data=db_test)

    model.evaluate(db_test)

if __name__ == '__main__':

    main()

Multi-layers

import os

import tensorflow as tf

import numpy as np

from tensorflow import keras

from tensorflow.keras import layers

tf.random.set_seed(22)

np.random.seed(22)

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

assert tf.__version__.startswith('2.')

batchsz = 128

# the most frequest words

total_words = 10000  # 编码10000个单词

max_review_len = 80  # 句子长度80

embedding_len = 100

(x_train,

 y_train), (x_test,

            y_test) = keras.datasets.imdb.load_data(num_words=total_words)

# x_train:[b, 80]

# x_test: [b, 80]

x_train = keras.preprocessing.sequence.pad_sequences(x_train,

                                                     maxlen=max_review_len)

x_test = keras.preprocessing.sequence.pad_sequences(x_test,

                                                    maxlen=max_review_len)

db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))

# drop_remainder，丢弃最后一个大小不合适的batch

db_train = db_train.shuffle(1000).batch(batchsz, drop_remainder=True)

db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))

db_test = db_test.batch(batchsz, drop_remainder=True)

print('x_train shape:', x_train.shape, tf.reduce_max(y_train),

      tf.reduce_min(y_train))

print('x_test shape:', x_test.shape)

class MyRNN(keras.Model):

    def __init__(self, units):

        super(MyRNN, self).__init__()

        # transform text to embedding representation

        # [b, 80] => [b, 80, 100]  # embedding_len=100表示一个单词为100的向量

        self.embedding = layers.Embedding(total_words,

                                          embedding_len,

                                          input_length=max_review_len)

        # [b, 80, 100] , h_dim: 64

        self.rnn = keras.Sequential([

            layers.SimpleRNN(units,

                             dropout=0.5,

                             return_sequences=True,

                             unroll=True),

            layers.SimpleRNN(units, dropout=0.5, unroll=True)

        ])

        # fc, [b, 80, 100] => [b, 64] => [b, 1] # 得到分类结果

        self.outlayer = layers.Dense(1)

    def call(self, inputs, training=None):

        """

        net(x) net(x, training=True) :train mode

        net(x, training=False): test

        :param inputs: [b, 80]

        :param training: 计算过程是train还是test

        :return:

        """

        # [b, 80]

        x = inputs

        # embedding: [b, 80] => [b, 80, 100]

        x = self.embedding(x)

        # rnn cell compute

        # x: [b, 80, 100] => [b, 64]

        x = self.rnn(x)

        # out: [b, 64] => [b, 1]

        x = self.outlayer(x)

        # p(y is pos|x)

        prob = tf.sigmoid(x)

        return prob

def main():

    units = 64

    epochs = 4

    model = MyRNN(units)

    model.compile(optimizer=keras.optimizers.Adam(0.001),

                  loss=tf.losses.BinaryCrossentropy(),

                  metrics=['accuracy'])

    model.fit(db_train, epochs=epochs, validation_data=db_test)

    model.evaluate(db_test)

if __name__ == '__main__':

    main()

RNN与情感分类问题实战-加载IMDB数据集的更多相关文章

pytorch 加载mnist数据集报错not gzip file
利用pytorch加载mnist数据集的代码如下 import torchvision import torchvision.transforms as transforms from torch.u ...
torchvision的理解和学习加载常用数据集，对主流模型的调用.md
torchvision的理解和学习加载常用数据集,对主流模型的调用 https://blog.csdn.net/tsq292978891/article/details/79403617 加载常用数 ...
科学计算三维可视化---TVTK管线与数据加载（数据集）
一:数据集三维可视化的第一步是选用合适的数据结构来表示数据,TVTK提供了多种表示不同种类数据的数据集 (一)数据集--ImageData >>> from tvtk.api im ...
Tensorflow之快速加载MNIST数据集
from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf def myprint(v): p ...
Pytorch文本分类(imdb数据集)，含DataLoader数据加载，最优模型保存
用pytorch进行文本分类,数据集为keras内置的imdb影评数据(二分类),代码包含六个部分(详见代码) 使用环境: pytorch:1.1.0 cuda:10.0 gpu:RTX2070 (1 ...
[DeeplearningAI笔记]序列模型2.9情感分类
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.9 Sentiment classification 情感分类情感分类任务简单来说是看一段文本,然后分辨这个人是否喜欢 ...
JVM学习二：JVM之类加载器之加载分析
前面一遍,我们对类的加载有了一个整体的认识,而这一节我们细节分析一下类加载器的第一步,即:加载. 一.概念类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区 ...
UIButton 加载网络图片
以后就可以用这个分类 UIButton轻松加载网络图片了, UIButton+WebCache.h #import <UIKit/UIKit.h> @interface UIButt ...
Pytorch加载并可视化FashionMNIST指定层(Udacity)
加载并可视化FashionMNIST 在这个notebook中,我们要加载并查看 Fashion-MNIST 数据库中的图像. 任何分类问题的第一步,都是查看你正在使用的数据集.这样你可以了解有关图像 ...

随机推荐

洛谷 P1081 开车旅行【双向链表+倍增】
倍增数组的20和N写反了反复WAWAWA-- 注意到a和b在每个点上出发都会到一个指定的点,所以这样构成了两棵以n点为根的树假设我们建出了这两棵树,对于第一问就可以枚举起点然后倍增的找出ab路径长度 ...
css实现侧边展开收起
前言:因为突然想研究研究侧边栏滑动展开收起怎么做的,就去baidu了一下transition. 详情内容1 内容1 内容1 内容1 内容1 右侧有实现demo.就是那个绿色的详情先来看一下我的代码 ...
Luogu P1638 逛画展【二分答案】
题目描述博览馆正在展出由世上最佳的 M 位画家所画的图画. wangjy想到博览馆去看这几位大师的作品. 可是,那里的博览馆有一个很奇怪的规定,就是在购买门票时必须说明两个数字, a和b,代表他要看 ...
JavaScript--DOM浏览器窗口可视区域大小
浏览器窗口可视区域大小获得浏览器窗口的尺寸(浏览器的视口,不包括工具栏和滚动条)的方法: 一.对于IE9+.Chrome.Firefox.Opera 以及 Safari: • window.inn ...
SQL 初级教程学习（五）
1.DEFAULT 约束用于向列中插入默认值. CREATE TABLE Orders(Id_O int NOT NULL,OrderNo int NOT NULL,Id_P int,OrderDat ...
洛谷 P1600 天天爱跑步
https://www.luogu.org/problemnew/show/P1600 (仅做记录) 自己的假方法: 每一次跑从a到b:设l=lca(a,b)对于以下产生贡献: a到l的链上所有的点( ...
urllib的高级用法
Handler简介我们可以把他理解为各种处理器,有专门处理登录验证的,有处理cookies的,有处理代理设置的.利用他们,我们几乎可以做到HTTP请求中的所有事情. 首先,介绍一下 urllib.r ...
题解报告：hdu 2602 Bone Collector（01背包）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2602 Problem Description Many years ago , in Teddy’s ...
解题报告：hdu 1407 测试你是否和LTC水平一样高
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1407 Problem Description 大家提到LTC都佩服的不行,不过,如果竞赛只有这一个题目 ...
C. Timofey and a tree 观察题＋　ｄｆｓ模拟
http://codeforces.com/contest/764/problem/C 题意:在n个顶点中随便删除一个,然后分成若干个连通子图,要求这若干个连通子图的颜色都只有一种. 记得边是双向的, ...

RNN与情感分类问题实战-加载IMDB数据集

Sentiment Analysis

Two approaches

Single layer

Multi-layers

RNN与情感分类问题实战-加载IMDB数据集的更多相关文章

随机推荐

热门专题