使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

代码如下：

from __future__ import division, print_function, absolute_import

import tensorflow as tf

import tflearn

from tflearn.layers.core import input_data, dropout, fully_connected

from tflearn.layers.conv import conv_1d, global_max_pool

from tflearn.layers.merge_ops import merge

from tflearn.layers.estimator import regression

from tflearn.data_utils import to_categorical, pad_sequences

from tflearn.datasets import imdb

import os

from tensorflow.contrib.learn.python import learn

from sklearn import metrics

from sklearn.model_selection import train_test_split

import numpy as np

MAX_DOCUMENT_LENGTH = 200

EMBEDDING_SIZE = 50

n_words=0

def load_one_file(filename):

    x=""

    with open(filename) as f:

        for line in f:

            x+=line

    return x

def load_files(rootdir,label):

    list = os.listdir(rootdir)

    x=[]

    y=[]

    for i in range(0, len(list)):

        path = os.path.join(rootdir, list[i])

        if os.path.isfile(path):

            #print "Load file %s" % path

            y.append(label)

            x.append(load_one_file(path))

    return x,y 

def load_data():

    x=[]

    y=[]

    x1,y1=load_files("../data/movie-review-data/review_polarity/txt_sentoken/pos/",0)

    x2,y2=load_files("../data/movie-review-data/review_polarity/txt_sentoken/neg/", 1)

    x=x1+x2

    y=y1+y2

    return x,y

def  do_cnn(trainX, trainY,testX, testY):

    global n_words

    # Data preprocessing

    # Sequence padding

    trainX = pad_sequences(trainX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    testX = pad_sequences(testX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    # Converting labels to binary vectors

    trainY = to_categorical(trainY, nb_classes=2)

    testY = to_categorical(testY, nb_classes=2)

    # Building convolutional network

    network = input_data(shape=[None, MAX_DOCUMENT_LENGTH], name='input')

    network = tflearn.embedding(network, input_dim=n_words+1, output_dim=128)

    branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2")

    branch2 = conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2")

    branch3 = conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2")

    network = merge([branch1, branch2, branch3], mode='concat', axis=1)

    network = tf.expand_dims(network, 2)

    network = global_max_pool(network)

    network = dropout(network, 0.5)

    network = fully_connected(network, 2, activation='softmax')

    network = regression(network, optimizer='adam', learning_rate=0.001,

                         loss='categorical_crossentropy', name='target')

    # Training

    model = tflearn.DNN(network, tensorboard_verbose=0)

    model.fit(trainX, trainY, n_epoch = 20, shuffle=True, validation_set=(testX, testY), show_metric=True, batch_size=32)

if __name__ == '__main__':

    # IMDB Dataset loading

    global n_words

    x,y=load_data()

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=0)

    vp = learn.preprocessing.VocabularyProcessor(max_document_length=MAX_DOCUMENT_LENGTH, min_frequency=1)

    vp.fit(x)

    x_train = np.array(list(vp.transform(x_train)))

    x_test = np.array(list(vp.transform(x_test)))

    n_words=len(vp.vocabulary_)

    print('Total words: %d' % n_words)

    do_cnn(x_train, y_train,x_test, y_test)

准确率是100%

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

使用LSTM做电影评论负面检测——使用朴素贝叶斯才51%，但是使用LSTM可以达到99%准确度
基本思路: 每个评论取前200个单词.然后生成词汇表,利用词汇index标注评论(对每条评论的前200个单词编号而已),然后使用LSTM做正负评论检测. 代码解读见[[[评论]]]!embeddin ...
『科学计算』图像检测微型demo
这里是课上老师给出的一个示例程序,演示图像检测的过程,本来以为是传统的滑窗检测,但实际上引入了selectivesearch来选择候选窗,所以看思路应该是RCNN的范畴,蛮有意思的,由于老师的注释写的 ...
基于Keras的imdb数据集电影评论情感二分类
IMDB数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行.)中找到下载,下载后放到~/.keras/datasets/目录下,即可正 ...
【项目实战】Kaggle电影评论情感分析
前言这几天持续摆烂了几天,原因是我自己对于Kaggle电影评论情感分析的这个赛题敲出来的代码无论如何没办法运行,其中数据变换的维度我无法把握好,所以总是在函数中传错数据.今天痛定思痛,重新写了一遍代 ...
kaggle之电影评论文本情感分类
电影文本情感分类 Github地址 Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯.逻辑回 ...
基于卷积神经网络CNN的电影推荐系统
本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务. 推荐系统在日常的网络应用中无处不在,比如网上购物.网上买书.新闻app.社交网络.音乐网站.电影网站等等等等,有人的地方 ...
tensorflow 教程文本分类 IMDB电影评论
昨天配置了tensorflow的gpu版本,今天开始简单的使用一下主要是看了一下tensorflow的tutorial 里面的 IMDB 电影评论二分类这个教程教程里面主要包括了一下几个内容:下载 ...
CNN做序列标注问题（tensorflow）
一.搭建简单的CNN做序列标注代码 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt TIME_ST ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...

随机推荐

POJ 3122 二分
大致题意: 就是公平地分披萨pie 我生日,买了n个pie,找来f个朋友,那么总人数共f+1人每个pie都是高为1的圆柱体,输入这n个pie的每一个尺寸(半径),如果要公平地把pie分给每一个人(就 ...
LeetCode Weekly Contest 21
1. 530. Minimum Absolute Difference in BST 最小的差一定发生在有序数组的相邻两个数之间,所以对每一个数,找他的前驱和后继,更新结果即可!再仔细一想,bst的中 ...
selenium 最大化浏览器是解决浏览器和驱动不匹配的方法如下
那么要想selenium成功的操作chrome浏览器需要经历如下步骤: 1.下载ChromeDriver驱动包(下载地址: http://chromedriver.storage.googleapis ...
Android拼图-变形金刚
开篇学了几个月的Android开发,动手做了一个简单的拼图小游戏,没有使用游戏框架,名字也纯属娱乐,比较粗糙请大家一笑别骂. 游戏界面是一张图片切割的6*6的小图片,并将其中一块拿走,玩家通过不同的 ...
Android 解决toolbar标题不显示问题
问题原因:toolbar的兼容性有问题解决办法: setSupportActionBar(toolbar); toolbar使用步骤: 1.编写menu.xml 为了保持兼容需要这样写: andro ...
wpf ComboBox 获取选中项的文本内容
一:根据数据源类型获取选中项类: public class Region { public int REGION_ID { get; set; } public string REGION_CODE ...
(到8.1为止)Android版本名称与内容
版本名称 API 主要版本更新时间 Android 1.0 1 测试版本 Android 1.1 2 2008 年9月正式发布的Android第一版 Android 1.5 Cupcake(纸杯 ...
基于Linux/C++简单线程池的实现
我们知道Java语言对于多线程的支持十分丰富,JDK本身提供了很多性能优良的库,包括ThreadPoolExecutor和ScheduleThreadPoolExecutor等.C++11中的STL也 ...
UVa1585修改版
#include<stdio.h> int main() { int i,k=-1; char a[100]; while(scanf("%s",&a)!=EO ...
（转）基于MVC4+EasyUI的Web开发框架形成之旅--附件上传组件uploadify的使用
http://www.cnblogs.com/wuhuacong/p/3343967.html 大概一年前,我还在用Asp.NET开发一些行业管理系统的时候,就曾经使用这个组件作为文件的上传操作,在随 ...

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

随机推荐

热门专题