【转】用python实现简单的文本情感分析

import jieba

import numpy as np

# 打开词典文件，返回列表

def open_dict(Dict='hahah',path = r'/Users/zhangzhenghai/Downloads/Textming/'):

    path = path + '%s.txt' %Dict

    dictionary = open(path, 'r', encoding='utf-8')

    dict = []

    for word in dictionary:

        word = word.strip('\n')

        dict.append(word)

    return dict

def judgeodd(num):

    if num % 2 == 0:

        return 'even'

    else:

        return 'odd'

deny_word = open_dict(Dict='否定词')

posdict = open_dict(Dict='positive')

negdict = open_dict(Dict = 'negative')

degree_word = open_dict(Dict = '程度级别词语',path=r'/Users/zhangzhenghai/Downloads/Textming/')

mostdict = degree_word[degree_word.index('extreme')+1: degree_word.index('very')] #权重4，即在情感前乘以3

verydict = degree_word[degree_word.index('very')+1: degree_word.index('more')] #权重3

moredict = degree_word[degree_word.index('more')+1: degree_word.index('ish')]#权重2

ishdict = degree_word[degree_word.index('ish')+1: degree_word.index('last')]#权重0.5

def sentiment_score_list(dataset):

    seg_sentence = dataset.split('。')

    count1 = []

    count2 = []

    for sen in seg_sentence: # 循环遍历每一个评论

        segtmp = jieba.lcut(sen, cut_all=False) # 把句子进行分词，以列表的形式返回

        i = 0 #记录扫描到的词的位置

        a = 0 #记录情感词的位置

        poscount = 0 # 积极词的第一次分值

        poscount2 = 0 # 积极反转后的分值

        poscount3 = 0 # 积极词的最后分值（包括叹号的分值）

        negcount = 0

        negcount2 = 0

        negcount3 = 0

        for word in segtmp:

            if word in posdict: # 判断词语是否是情感词

                poscount +=1

                c = 0

                for w in segtmp[a:i]: # 扫描情感词前的程度词

                    if w in mostdict:

                        poscount *= 4.0

                    elif w in verydict:

                        poscount *= 3.0

                    elif w in moredict:

                       poscount *= 2.0

                    elif w in ishdict:

                        poscount *= 0.5

                    elif w in deny_word: c+= 1

                if judgeodd(c) == 'odd': # 扫描情感词前的否定词数

                    poscount *= -1.0

                    poscount2 += poscount

                    poscount = 0

                    poscount3 = poscount + poscount2 + poscount3

                    poscount2 = 0

                else:

                    poscount3 = poscount + poscount2 + poscount3

                    poscount = 0

                a = i+1

            elif word in negdict: # 消极情感的分析，与上面一致

                negcount += 1

                d = 0

                for w in segtmp[a:i]:

                    if w in mostdict:

                        negcount *= 4.0

                    elif w in verydict:

                        negcount *= 3.0

                    elif w in moredict:

                        negcount *= 2.0

                    elif w in ishdict:

                        negcount *= 0.5

                    elif w in degree_word:

                        d += 1

                if judgeodd(d) == 'odd':

                    negcount *= -1.0

                    negcount2 += negcount

                    negcount = 0

                    negcount3 = negcount + negcount2 + negcount3

                    negcount2 = 0

                else:

                    negcount3 = negcount + negcount2 + negcount3

                    negcount = 0

                a = i + 1

            elif word == '！' or word == '!': # 判断句子是否有感叹号

                for w2 in segtmp[::-1]: # 扫描感叹号前的情感词，发现后权值+2，然后退出循环

                    if w2 in posdict or negdict:

                        poscount3 += 2

                        negcount3 += 2

                        break

            i += 1

            # 以下是防止出现负数的情况

            pos_count = 0

            neg_count = 0

            if poscount3 <0 and negcount3 > 0:

                neg_count += negcount3 - poscount3

                pos_count = 0

            elif negcount3 <0 and poscount3 > 0:

                pos_count = poscount3 - negcount3

                neg_count = 0

            elif poscount3 <0 and negcount3 < 0:

                neg_count = -pos_count

                pos_count = -neg_count

            else:

                pos_count = poscount3

                neg_count = negcount3

            count1.append([pos_count,neg_count])

        count2.append(count1)

        count1=[]

    return count2

def sentiment_score(senti_score_list):

    score = []

    for review in senti_score_list:

        score_array =  np.array(review)

        Pos = np.sum(score_array[:,0])

        Neg = np.sum(score_array[:,1])

        AvgPos = np.mean(score_array[:,0])

        AvgPos = float('%.lf' % AvgPos)

        AvgNeg = np.mean(score_array[:, 1])

        AvgNeg = float('%.1f' % AvgNeg)

        StdPos = np.std(score_array[:, 0])

        StdPos = float('%.1f' % StdPos)

        StdNeg = np.std(score_array[:, 1])

        StdNeg = float('%.1f' % StdNeg)

        score.append([Pos,Neg,AvgPos,AvgNeg,StdPos,StdNeg])

    return score

data = '用了几天又来评价的，手机一点也不卡，玩荣耀的什么的不是问题，充电快，电池够大，玩游戏可以玩几个小时，待机应该可以两三天吧，很赞'

data2 = '不知道怎么讲，真心不怎么喜欢，通话时声音小，新手机来电话竟然卡住了接不了，原本打算退，刚刚手机摔了，又退不了，感觉不会再爱，像素不知道是我不懂还是怎么滴 感觉还没z11mini好，哎要我怎么评价 要我如何喜欢努比亚 太失望了'

print(sentiment_score(sentiment_score_list(data)))

print(sentiment_score(sentiment_score_list(data2)))

情感分析简介：

情感分析就是分析一句话说得是很主观还是客观描述，分析这句话表达的是积极的情绪还是消极的情绪。

原理
比如这么一句话：“这手机的画面极好，操作也比较流畅。不过拍照真的太烂了！系统也不好。”
① 情感词
要分析一句话是积极的还是消极的，最简单最基础的方法就是找出句子里面的情感词，积极的情感词比如：赞，好，顺手，华丽等，消极情感词比如：差，烂，坏，坑爹等。出现一个积极词就+1，出现一个消极词就-1。
里面就有“好”，“流畅”两个积极情感词，“烂”一个消极情感词。那它的情感分值就是1+1-1+1=2. 很明显这个分值是不合理的，下面一步步修改它。
② 程度词
“好”，“流畅”和‘烂“前面都有一个程度修饰词。”极好“就比”较好“或者”好“的情感更强，”太烂“也比”有点烂“情感强得多。所以需要在找到情感词后往前找一下有没有程度修饰，并给不同的程度一个权值。比如”极“，”无比“，”太“就要把情感分值*4，”较“，”还算“就情感分值*2，”只算“，”仅仅“这些就*0.5了。那么这句话的情感分值就是：4*1+1*2-1*4+1=3
③ 感叹号
可以发现太烂了后面有感叹号，叹号意味着情感强烈。因此发现叹号可以为情感值+2. 那么这句话的情感分值就变成了：4*1+1*2-1*4-2+1 = 1
④ 否定词
明眼人一眼就看出最后面那个”好“并不是表示”好“，因为前面还有一个”不“字。所以在找到情感词的时候，需要往前找否定词。比如”不“，”不能“这些词。而且还要数这些否定词出现的次数，如果是单数，情感分值就*-1，但如果是偶数，那情感就没有反转，还是*1。在这句话里面，可以看出”好“前面只有一个”不“，所以”好“的情感值应该反转，*-1。
因此这句话的准确情感分值是：4*1+1*2-1*4-2+1*-1 = -1
⑤ 积极和消极分开来
再接下来，很明显就可以看出，这句话里面有褒有贬，不能用一个分值来表示它的情感倾向。而且这个权值的设置也会影响最终的情感分值，敏感度太高了。因此对这句话的最终的正确的处理，是得出这句话的一个积极分值，一个消极分值（这样消极分值也是正数，无需使用负数了）。它们同时代表了这句话的情感倾向。所以这句评论应该是”积极分值：6，消极分值：7“
⑥ 以分句的情感为基础
再仔细一步，详细一点，一条评论的情感分值是由不同的分句加起来的，因此要得到一条评论的情感分值，就要先计算出评论中每个句子的情感分值。这条例子评论有四个分句，因此其结构如下（[积极分值, 消极分值]）：[[4, 0], [2, 0], [0, 6], [0, 1]]
以上就是使用情感词典来进行情感分析的主要流程了，算法的设计也会按照这个思路来实现。
算法设计
第一步：读取评论数据，对评论进行分句。
第二步：查找对分句的情感词，记录积极还是消极，以及位置。
第三步：往情感词前查找程度词，找到就停止搜寻。为程度词设权值，乘以情感值。
第四步：往情感词前查找否定词，找完全部否定词，若数量为奇数，乘以-1，若为偶数，乘以1。
第五步：判断分句结尾是否有感叹号，有叹号则往前寻找情感词，有则相应的情感值+2。
第六步：计算完一条评论所有分句的情感值，用数组（list）记录起来。
第七步：计算并记录所有评论的情感值。
第八步：通过分句计算每条评论的积极情感均值，消极情感均值，积极情感方差，消极情感方差。

转自：https://zhuanlan.zhihu.com/p/23225934

原作者提供了下载链接: https://pan.baidu.com/s/1jIRoOxK 密码: 6wq4

存粹转发，留着以后自己用，后经试验部分代码健壮性差点（评论文字稍长，程序报错），需要的时候再加固。

【转】用python实现简单的文本情感分析的更多相关文章

基于 Spark 的文本情感分析
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...
NLP入门（十）使用LSTM进行文本情感分析
情感分析简介文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性 ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
TensorFlow实现文本情感分析详解
http://c.biancheng.net/view/1938.html 前面我们介绍了如何将卷积网络应用于图像.本节将把相似的想法应用于文本. 文本和图像有什么共同之处?乍一看很少.但是,如果将句 ...
TensorFlow文本情感分析实现
TensorFlow文本情感分析实现前面介绍了如何将卷积网络应用于图像.本文将把相似的想法应用于文本. 文本和图像有什么共同之处?乍一看很少.但是,如果将句子或文档表示为矩阵,则该矩阵与其中每个单元 ...
LSTM 文本情感分析/序列分类 Keras
LSTM 文本情感分析/序列分类 Keras 请参考 http://spaces.ac.cn/archives/3414/ neg.xls是这样的 pos.xls是这样的neg=pd.read_e ...
用python做文本情感分析
情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪.原理比如这么一句话:“这手机的画面极好,操作也比较流畅.不过拍照真的太烂了!系统也不好.” ① 情感词要分 ...
文本情感分析(一)：基于词袋模型(VSM、LSA、n-gram)的文本表示
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM.Xgboost.随机森林,来训练模型.因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习 ...
文本情感分析(二)：基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...

随机推荐

WCF 自承载提供源码
一.WCF 简单介绍 Windows Communication Foundation(WCF)是由微软发展的一组数据通信的应用程序开发接口,是一套通讯接口.现在比较流行的SOA就可以通过WCF实现. ...
SQL Server基础知识三十三问 (1-7)
1. SQL Server运行在什么端口上? 可以被修改么? 答: 1433端口. 可以修改的, 在SQL Server Configuration Manager的SQL Server Networ ...
DRP——JDBC中的Batch
在jdbc2.0里添加了批量处理的功能(batch),其同意将多个sql语句作为一个单元送至数据库去运行,这样做能够提高操作效率.在操作大量的数据时, ORM框架实现批量是非常慢的.我们能够使用jdb ...
Token_使用JWT生成token
1.token三部分 header { "typ": "JWT", "alg": "HS256" } paylo ...
HDU 1565 1569 方格取数（最大点权独立集）
HDU 1565 1569 方格取数(最大点权独立集) 题目链接题意:中文题思路:最大点权独立集 = 总权值 - 最小割 = 总权值 - 最大流那么原图周围不能连边,那么就能够分成黑白棋盘.源点 ...
苹果开发——Xcode证书生成、设置及应用
原地址:http://zengwu3915.blog.163.com/blog/static/2783489720137483422530/ 开发环境: Mac OS lion 10.8.2.Xcod ...
JDK中注解的底层实现
前提用Java快三年了,注解算是一个常用的类型,特别是在一些框架里面会大量使用注解做组件标识.配置或者策略.但是一直没有深入去探究JDK中的注解到底是什么,底层是怎么实现了?于是参考了一些资料,做了 ...
Selenium WebDriver问题--Internet Explorer保护模式设置问题
在用WebDriver中打开Internet Explorer访问百度的是,报下面错误: org.openqa.selenium.remote.SessionNotFoundException: Un ...
IO核心代码
ACE中TASK架构简介及简单应用
一.基础功能介绍 1.ACE_Message_Block*,Windows消息用MSG结构表示,ACE_Task中因为不能预计各种应用中消息的类型,所以ACE_Message_Block基本上可以理解 ...

【转】用python实现简单的文本情感分析

【转】用python实现简单的文本情感分析的更多相关文章

随机推荐

热门专题