使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

代码如下：

from __future__ import division, print_function, absolute_import

import tensorflow as tf

import tflearn

from tflearn.layers.core import input_data, dropout, fully_connected

from tflearn.layers.conv import conv_1d, global_max_pool

from tflearn.layers.merge_ops import merge

from tflearn.layers.estimator import regression

from tflearn.data_utils import to_categorical, pad_sequences

from tflearn.datasets import imdb

import os

from tensorflow.contrib.learn.python import learn

from sklearn import metrics

from sklearn.model_selection import train_test_split

import numpy as np

MAX_DOCUMENT_LENGTH = 200

EMBEDDING_SIZE = 50

n_words=0

def load_one_file(filename):

    x=""

    with open(filename) as f:

        for line in f:

            x+=line

    return x

def load_files(rootdir,label):

    list = os.listdir(rootdir)

    x=[]

    y=[]

    for i in range(0, len(list)):

        path = os.path.join(rootdir, list[i])

        if os.path.isfile(path):

            #print "Load file %s" % path

            y.append(label)

            x.append(load_one_file(path))

    return x,y 

def load_data():

    x=[]

    y=[]

    x1,y1=load_files("../data/movie-review-data/review_polarity/txt_sentoken/pos/",0)

    x2,y2=load_files("../data/movie-review-data/review_polarity/txt_sentoken/neg/", 1)

    x=x1+x2

    y=y1+y2

    return x,y

def  do_cnn(trainX, trainY,testX, testY):

    global n_words

    # Data preprocessing

    # Sequence padding

    trainX = pad_sequences(trainX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    testX = pad_sequences(testX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    # Converting labels to binary vectors

    trainY = to_categorical(trainY, nb_classes=2)

    testY = to_categorical(testY, nb_classes=2)

    # Building convolutional network

    network = input_data(shape=[None, MAX_DOCUMENT_LENGTH], name='input')

    network = tflearn.embedding(network, input_dim=n_words+1, output_dim=128)

    branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2")

    branch2 = conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2")

    branch3 = conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2")

    network = merge([branch1, branch2, branch3], mode='concat', axis=1)

    network = tf.expand_dims(network, 2)

    network = global_max_pool(network)

    network = dropout(network, 0.5)

    network = fully_connected(network, 2, activation='softmax')

    network = regression(network, optimizer='adam', learning_rate=0.001,

                         loss='categorical_crossentropy', name='target')

    # Training

    model = tflearn.DNN(network, tensorboard_verbose=0)

    model.fit(trainX, trainY, n_epoch = 20, shuffle=True, validation_set=(testX, testY), show_metric=True, batch_size=32)

if __name__ == '__main__':

    # IMDB Dataset loading

    global n_words

    x,y=load_data()

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=0)

    vp = learn.preprocessing.VocabularyProcessor(max_document_length=MAX_DOCUMENT_LENGTH, min_frequency=1)

    vp.fit(x)

    x_train = np.array(list(vp.transform(x_train)))

    x_test = np.array(list(vp.transform(x_test)))

    n_words=len(vp.vocabulary_)

    print('Total words: %d' % n_words)

    do_cnn(x_train, y_train,x_test, y_test)

准确率是100%

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

使用LSTM做电影评论负面检测——使用朴素贝叶斯才51%，但是使用LSTM可以达到99%准确度
基本思路: 每个评论取前200个单词.然后生成词汇表,利用词汇index标注评论(对每条评论的前200个单词编号而已),然后使用LSTM做正负评论检测. 代码解读见[[[评论]]]!embeddin ...
『科学计算』图像检测微型demo
这里是课上老师给出的一个示例程序,演示图像检测的过程,本来以为是传统的滑窗检测,但实际上引入了selectivesearch来选择候选窗,所以看思路应该是RCNN的范畴,蛮有意思的,由于老师的注释写的 ...
基于Keras的imdb数据集电影评论情感二分类
IMDB数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行.)中找到下载,下载后放到~/.keras/datasets/目录下,即可正 ...
【项目实战】Kaggle电影评论情感分析
前言这几天持续摆烂了几天,原因是我自己对于Kaggle电影评论情感分析的这个赛题敲出来的代码无论如何没办法运行,其中数据变换的维度我无法把握好,所以总是在函数中传错数据.今天痛定思痛,重新写了一遍代 ...
kaggle之电影评论文本情感分类
电影文本情感分类 Github地址 Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯.逻辑回 ...
基于卷积神经网络CNN的电影推荐系统
本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务. 推荐系统在日常的网络应用中无处不在,比如网上购物.网上买书.新闻app.社交网络.音乐网站.电影网站等等等等,有人的地方 ...
tensorflow 教程文本分类 IMDB电影评论
昨天配置了tensorflow的gpu版本,今天开始简单的使用一下主要是看了一下tensorflow的tutorial 里面的 IMDB 电影评论二分类这个教程教程里面主要包括了一下几个内容:下载 ...
CNN做序列标注问题（tensorflow）
一.搭建简单的CNN做序列标注代码 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt TIME_ST ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...

随机推荐

（转载）更新到Retrofit2的一些技巧
更新到Retrofit2的一些技巧作者小武站台关注 2016.02.22 22:13* 字数 1348 阅读 1621评论 0喜欢 5赞赏 1 原文链接:Tips on updating to ...
【Oracle】权限
1. 授予权限: GRANT privilege[, privilege...] TO user [, user| role, PUBLIC...]; ①DBA授予用户系统权限 GRANT creat ...
开源作品-ThinkPHP在线分析工具(单文件绿色版)-TPLogAnalysis_PHP_1_0
TPLogAnalysis_PHP_1_0 前言:项目开发基于ThinkPHP框架,但是在调试程序的时候,没有一款日志可视化分析工具.在网络也找不到任何相关的TP日志分析工具.求人不如求己,于是决定抽 ...
C#中的引用传递和值传递。
最近在写项目中有同事碰到这样的传值问题,可能很多对这个参数的传递还有点疑惑,自己也是对这个基础知识做一个回顾和巩固. 首先什么是值类型和引用类型可以去园里看一下相关的资料,都有介绍. 常用值类型包括: ...
WAMP安装之坑
Apache安装目录不能有空格 Apache根目录修改后不能直接localhost打开,可以通过改变端口,然后输入 localhost:端口号打开
创建一个dynamics CRM workflow (六) - Debugging Custom Workflows
我们也deploy部署了custom workflows, debugging是开发当中不可或缺的一个步骤. debug workflow的步骤和debug有些许不一样: 1. install pro ...
MongoDB 学习笔记（七）：主从复制与副本集
一.主从复制 1.主从复制是一个简单的数据库同步备份的集群技术,如下图:要明确的知道主服务器与从服务器,且从服务器要明确的知道主服务器的存在. 2.在MongoDB中在启动数据库服务时,可以用mast ...
BZOJ 1305: [CQOI2009]dance跳舞网络最大流_二分答案_建模
Description 一次舞会有n个男孩和n个女孩.每首曲子开始时,所有男孩和女孩恰好配成n对跳交谊舞.每个男孩都不会和同一个女孩跳两首(或更多)舞曲.有一些男孩女孩相互喜欢,而其他相互不喜欢(不会 ...
Python笔记8----DataFrame（二维）
目录: DataFrame概念 DataFrame创建基本操作查看.索引修改.删除统计功能条件筛选合并去除空值 4. 一些常用的函数 apply memory_usage pivot_t ...
Problem 4
Problem 4 # Problem_4 """ A palindromic number reads the same both ways. The largest ...

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

随机推荐

热门专题