python系列之（4）豆瓣图书《平凡的世界》书评及情感分析

本篇主要是通过对豆瓣图书《平凡的世界》短评进行抓取并进行分析，并用snowNLP对其进行情感分析。

用到的模块有snowNLP，是一个python库，用来进行情感分析。

1.抓取数据

我们把抓取到的数据存储到sqlite,先建表，结构如下：

CREATE TABLE comment(

   id  integer PRIMARY KEY autoincrement     NOT NULL,

   commentator             VARCHAR(50)    NOT NULL,

   star           INTEGER   NOT NULL,

   time          VARCHAR(50)    NOT NULL,

   content       TEXT NOT NULL

   );

然后写python代码进行抓取，如下：

import sys

from os import path

import time

import urllib3

import requests

import numpy as np

import sqlite3

from bs4 import BeautifulSoup

from urllib import parse

from snownlp import SnowNLP

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud

from PIL import Image

headers=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\

{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\

{'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]

def get_comment():

    page_num = 0;

    total_num = 0;

    while(1):

        page_num +=1

        url = "https://book.douban.com/subject/1200840/comments/hot?p="+str(page_num)

        print(url)

        http = urllib3.PoolManager()

        time.sleep(np.random.rand()*5)

        try:

            r = http.request("GET", url, headers=headers[page_num%len(headers)])

            plain_text = r.data.decode()

            print(plain_text)

        except Exception as e:

            print(e)

            continue

        soup = BeautifulSoup(plain_text, features="lxml")

        ligroup = soup.find_all("li", class_="comment-item")

        for item in ligroup:

            try:

                commentator = item.find("div", class_="avatar").a.get("title")

                spanlists = list(item.find("div", class_="comment").find("span", class_="comment-info"))

                while "\n" in spanlists:

                    spanlists.remove("\n")

                if (len(spanlists) == 3) :

                    stars = spanlists[1].get("title")

                    stars = switch_case(stars)

                    commenttime = spanlists[2].string

                else:

                    stars = 0

                    commenttime = spanlists[1].string

                content = item.find("span", class_="short").get_text()

                add_comment(commentator, stars, commenttime, content)

            except Exception as e:

                print(e)

                continue

        page_num+=1

        if page_num > 999:

            break

def switch_case(value):

    switcher = {

        "力荐":5,

        "推荐":4,

        "还行":3,

        "较差":2,

        "很差":1

    }

    return switcher.get(value, 0)

def add_comment(commentator, star, time, content):

    conn = sqlite3.connect("spider.db")

    cursor = conn.cursor()

    cursor.execute("insert into comment values (null, ?, ?, ?, ?)", (commentator, star, time, content))

    cursor.close()

    conn.commit()

    conn.close()

抓取完之后可以在表中看到数据

sqlite> select count(1) from comment;

8302

sqlite> select star,count(1) from comment group by star;

0|1359

1|58

2|133

3|643

4|1875

5|4234

sqlite> select * from comment order by id desc limit 5;

8302|燊栎|4|2014-11-19|经典中的经典

8301|Jerryhere|4|2016-03-08|平凡中的不平凡

8300|麦田睡觉者|5|2012-08-12|这部小说是我上大学看的第一本小说，它带给我的震撼是无与伦比的。彻底将我从高中时看的那些yy小说里震醒。同时，它真的是一部非常好看的小说，平凡的世界里不平凡的人生，生命总是充满苦痛伤悲，这些苦难让生命愈发的沉重厚实

8299|朔望|0|2013-07-29|人生就是如此平凡

8298|mindinthesky|0|2012-09-17|不错，中国就是这样子

2.简单分析

数据抓取完了之后我们进行简单分析，看下各个星的占比

然后在把所有的comment导到文件中，进行词云分析

导出如下：

>sqlite3 -header -csv spider.db "select content from comment;" > commentall.csv

完了就会在当前目录下生成一个commentall.csv的文件

然后可以对其词云分析，代码如下：

def make_cloud():

    text = open('commentall.txt', 'r', encoding='utf-8').read()

    cut_text = jieba.cut(text)

    result = " ".join(cut_text)

    wc = WordCloud(

        font_path='Deng.ttf',     #字体路劲

        background_color='white',   #背景颜色

        width=2000,

        height=1200,

        max_font_size=100,            #字体大小

        min_font_size=10,

        mask=plt.imread('timg.jpeg'),  #背景图片

        max_words=1000

    )

    wc.generate(result)

    wc.to_file('jielun.png')    #图片保存

    plt.figure('jielun')   #图片显示的名字

    plt.imshow(wc)

    plt.axis('off')        #关闭坐标

    plt.show()

分析完之后的图片输出是下图：

3.情感分析

我们从打的五星和一星能清楚的看到情感，但是对零星的就不太好判断，现在主要是用snowNLP对零星的做情感分析。要想分析，就先得训练，因为目前的是针对电商的评论，不适合现在的场景，怎么训练呢？

首先，我们把5颗星的评论导出存为pos.txt,作为积极的评论，把1颗星的评论导出存为neg.txt作为消极的评论；

然后，利用pos.txt和neg.txt进行训练

最后，在利用训练完的模型对0颗星的进行分析

好了，开始吧

首先导出

>sqlite3 -header -csv spider.db "select conent from comment where star = 5 limit 100;" > pos.csv

>sqlite3 -header -csv spider.db "select conent from comment  where star = 1 limit 100;" > neg.csv

然后找到snownlp的安装路径，如下方法：

kumufengchunMacBook-Pro:douban kumufengchun$ python

Python 3.6.4 (default, Jun  6 2019, 17:59:50)

[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.10.44.4)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> import snownlp

>>> snownlp

<module 'snownlp' from '/Users/kumufengchun/.pyenv/versions/3.6.4/lib/python3.6/site-packages/snownlp/__init__.py'>

找到了之后，把刚才的pos.scv和neg.csv拷贝到

/Users/kumufengchun/.pyenv/versions/3.6.4/lib/python3.6/site-packages/snownlp/sentiment/下边的pos.txt和neg.txt,为了保持名字一致，我们可以把之前的csv后缀的改为txt
然后开始用刚才导出的数据进行训练,训练完之后的输出保存为commentsentiment.marshal

from snownlp import sentiment

sentiment.train('neg.txt', 'pos.txt')

sentiment.save('commentsentiment.marshal')

然后把训练完输出的文件，在init文件中修改,文件训练完之后输出的是commentsentiment.marshal.3,后缀3是版本的意思，不用管他，在引用的时候不要加3，否则会报错，修改代码如下：

/Users/kumufengchun/.pyenv/versions/3.6.4/lib/python3.6/site-packages/snownlp/sentiment/__init__.py

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),

                         'commentsentiment.marshal')

好了，训练完之后，我们可以进行简单的测试

from snownlp import SnowNLP

str = "好很好"

s = SnowNLP(str)

print(s.words)

print(s.tags)

print(s.sentiments)

输出如下：

['好', '很', '好']

<zip object at 0x124963588>

0.6088772592136402

4.用训练的模型进行情感分析

代码如下：

def get_comment_bypage(offset, limit):

    conn = sqlite3.connect("spider.db")

    cursor = conn.cursor()

    cursor.execute('select content from comment where star=0 limit ?,?', (offset, limit))

    values = cursor.fetchall()

    cursor.close()

    conn.close()

    return values

def analyse_sentiment():

    offset = 0

    limit = 50

    commentcounts = {}

    while (offset < 1400):

        comments = get_comment_bypage(offset, limit)

        for comment in comments:

            s = SnowNLP(''.join(comment))

            print(s.sentiments)

            sentiment = round(s.sentiments, 2)

            if sentiment in commentcounts:

                commentcounts[sentiment] += 1

            else:

                commentcounts[sentiment] = 1

        offset+=limit

    print(commentcounts)

    return commentcounts

然后我们把所有的输出做个图如下：

可以看到每个输出所占的数量，如何判断是积极还是消极呢，一般采取0.3，大于0.3的为积极，否则为消极，也可以把之前的数据都跑一遍，定义个区间。

完整的代码如下：

import sys

from os import path

import time

import urllib3

import requests

import numpy as np

import sqlite3

from bs4 import BeautifulSoup

from urllib import parse

from snownlp import SnowNLP

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud

from PIL import Image

headers=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\

{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\

{'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]

def get_comment():

    page_num = 0;

    total_num = 0;

    while(1):

        page_num +=1

        url = "https://book.douban.com/subject/1200840/comments/hot?p="+str(page_num)

        print(url)

        http = urllib3.PoolManager()

        time.sleep(np.random.rand()*5)

        try:

            r = http.request("GET", url, headers=headers[page_num%len(headers)])

            plain_text = r.data.decode()

            print(plain_text)

        except Exception as e:

            print(e)

            continue

        soup = BeautifulSoup(plain_text, features="lxml")

        ligroup = soup.find_all("li", class_="comment-item")

        for item in ligroup:

            try:

                commentator = item.find("div", class_="avatar").a.get("title")

                spanlists = list(item.find("div", class_="comment").find("span", class_="comment-info"))

                while "\n" in spanlists:

                    spanlists.remove("\n")

                if (len(spanlists) == 3) :

                    stars = spanlists[1].get("title")

                    stars = switch_case(stars)

                    commenttime = spanlists[2].string

                else:

                    stars = 0

                    commenttime = spanlists[1].string

                content = item.find("span", class_="short").get_text()

                add_comment(commentator, stars, commenttime, content)

            except Exception as e:

                print(e)

                continue

        page_num+=1

        if page_num > 999:

            break

def switch_case(value):

    switcher = {

        "力荐":5,

        "推荐":4,

        "还行":3,

        "较差":2,

        "很差":1

    }

    return switcher.get(value, 0)

def add_comment(commentator, star, time, content):

    conn = sqlite3.connect("spider.db")

    cursor = conn.cursor()

    cursor.execute("insert into comment values (null, ?, ?, ?, ?)", (commentator, star, time, content))

    cursor.close()

    conn.commit()

    conn.close()

def get_comment_bypage(offset, limit):

    conn = sqlite3.connect("spider.db")

    cursor = conn.cursor()

    cursor.execute('select content from comment where star=0 limit ?,?', (offset, limit))

    values = cursor.fetchall()

    cursor.close()

    conn.close()

    return values

def analyse_sentiment():

    offset = 0

    limit = 50

    commentcounts = {}

    while (offset < 1400):

        comments = get_comment_bypage(offset, limit)

        for comment in comments:

            s = SnowNLP(''.join(comment))

            print(s.sentiments)

            sentiment = round(s.sentiments, 2)

            if sentiment in commentcounts:

                commentcounts[sentiment] += 1

            else:

                commentcounts[sentiment] = 1

        offset+=limit

    print(commentcounts)

    return commentcounts

def make_cloud():

    text = open('commentall.txt', 'r', encoding='utf-8').read()

    cut_text = jieba.cut(text)

    result = " ".join(cut_text)

    wc = WordCloud(

        font_path='Deng.ttf',     #字体路劲

        background_color='white',   #背景颜色

        width=2000,

        height=1200,

        max_font_size=100,            #字体大小

        min_font_size=10,

        mask=plt.imread('timg.jpeg'),  #背景图片

        max_words=1000

    )

    wc.generate(result)

    wc.to_file('jielun.png')    #图片保存

    plt.figure('jielun')   #图片显示的名字

    plt.imshow(wc)

    plt.axis('off')        #关闭坐标

    plt.show() 

if __name__=='__main__':

    get_comment()

    analyse_sentiment()

    make_cloud()

参考资料：

https://github.com/isnowfy/snownlp

https://www.cnblogs.com/mylovelulu/p/9511369.html

https://blog.csdn.net/oYeZhou/article/details/82868683

https://blog.csdn.net/hzp666/article/details/78969150

https://www.cnblogs.com/derek1184405959/p/9440526.html

python系列之（4）豆瓣图书《平凡的世界》书评及情感分析的更多相关文章

Python爬虫-爬取豆瓣图书Top250
豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作需要安装reques ...
Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析
文化经管 ....略结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的
【Python情感分析】用python情感分析李子柒频道视频热门评论
一.事件背景今天是2021.12.2日,距离李子柒断更已经4个多月了,这是我在YouTube李子柒油管频道上,观看李子柒2021年7月14日上传的最后一条视频,我录制了视频下方的来自全世界各国网友的 ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
Python个人项目--豆瓣图书个性化推荐
项目名称: 豆瓣图书个性化推荐需求简述:从给定的豆瓣用户名中,获取该用户所有豆瓣好友列表,从豆瓣好友中找出他们读过的且评分5星的图书,如果同一本书被不同的好友评5星,评分人数越多推荐度越高. 输入: ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...

随机推荐

2019.10.28 csp-s模拟测试91 反思总结
有一场没一场的233 T1: 胡乱分析一下题意,发现和为n的x个正整数,不同的数字种类不会超过√n个.假设这x个数字都不同,最多也就是(x+1)*x/2=n. 所以可以维护现有的size值以及对应的数 ...
hbase Hfile处理原因
Hile 内部的数据是按key排序好的,但Hfile之间数据并不能保证key的排序,也就是说对于新生成的Hfile,其内部的key并不都比老的Hfile的大,因此每次检索时,都需要在所有的Hfile中 ...
Java 8 的新特性和Java 的4种引用方式
一.接口的增强 Java 8允许我们给接口添加一个非抽象的方法实现,只需要使用 default关键字即可,这个特征又叫做扩展方法,示例如下: interface Formula { double ca ...
golang的flag包源码解析与使用
当我们 import package时,package内的全局常量和全局变量会进行初始化,并且紧接着init函数会执行.因此我们先看一下flag包的全局常量和全局变量. 一.flag包的全局常量.全 ...
Django项目：CRM(客户关系管理系统)--25--17PerfectCRM实现King_admin单列排序
登陆密码设置参考 http://www.cnblogs.com/ujq3/p/8553784.html {#table_data_list.html#} {## ————————08PerfectCR ...
微信小程序中自定义swiper轮播图面板指示点的样式
重置样式: .swiper{ width: 100%; height: 240px; margin-bottom: 0.5rem; position:relative; } div.wx-swiper ...
HTTPS的实现
1.安装专门的mod_ssl模块 [root@contos7 ~]# yum install mod_ssl Loaded plugins: fastestmirror, langpacks Load ...
react仿豆瓣
最近公司在做一个自己内部的图片上传系统,目的是帮助设计人员方便上传图片,用的是vue技术,但是说到vue,可能要提到更早出来的react,react是facebook搞的一套语法糖,也是革命性的用组件 ...
tcpdump命令介绍
命令格式为:tcpdump [-nn] [-i 接口] [-w 储存档名] [-c 次数] [-Ae] [-qX] [-r 文件] [所欲捕获的数据内容] 参数: -nn,直接以 IP 及 Port ...
关于Vector CANoe的讨论
默认排序踩猫尾巴汽车电子攻城狮 27 人赞同了该回答好像是很久以前的问题啊,为什么会现在收到邀请. 我觉得 @lijuqqkiko 介绍的足够啦. 我再额外发散一点吧. 目前在CAN总线测试和 ...

python系列之（4）豆瓣图书《平凡的世界》书评及情感分析

python系列之（4）豆瓣图书《平凡的世界》书评及情感分析的更多相关文章

随机推荐

热门专题