使用BeautifulSoup和正则表达式爬取时光网不同地区top100电影并使用Matplotlib对比

还有一年多就要毕业了，不准备考研的我要着手准备找实习及工作了，所以一直没有更新。

因为Python是自学不久，发现很久不用的话以前学过的很多方法就忘了，今天打算使用简单的BeautifulSoup和一点正则表达式的方法来爬一下top100电影，当然，我们并不仅是使用爬虫爬取数据，这样的话，数据中存在很多的对人有用的信息则被忽略了。所以，爬取数据只是开头，对这些数据根据意愿进行分析，或许能有额外的收获。

注：本人还是Python菜鸟，若有错误欢迎指正

　　转载请标明出处

本次我们爬取时光网（http://www.mtime.com/top/movie/top100/）上的电影排名，该网站网页结构较简单，爬取方便。

步骤：1.爬取时光网top100电影，华语top100电影，日本top100电影，韩国top100电影的排名情况，电影名字，电影简介，评分及评价人数

　　　2. 将爬取数据保存为csv格式后，取出并使用matplotlib绘图库分析对比评论人数一项

　　　3.将结果图像保存

步骤一：爬取

由上图可知电影信息在 li 节点内，而且发现第一页与后面网页地址不同，需要进行判断。

第一页地址为：http://www.mtime.com/top/movie/top100/

第二页地址为：http://www.mtime.com/top/movie/top100/index-2.html

第三页及后面地址均与第二页相似，仅网址的数字相应增加，所以更改数字即可爬取

 import requests

 from bs4 import BeautifulSoup

 import re

 import csv

 #定义爬取函数

 def get_infos(htmls, csvname):

     #信息头

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

     }

     #flag在写入文件时判断是否为首行

     flag = True

     #判断第一页网址，第二页及其后的网址

     for i in range(10):

         if i == 0:

             html = htmls

         else:

             html = htmls + 'index-{}.html'.format(str(i+1))

         res = requests.get(html, headers=headers)

         soup = BeautifulSoup(res.text, 'lxml')

         alls = soup.select('#asyncRatingRegion > li') #选取网页的li节点的内容

         #对节点内容进行循环遍历

         for one in alls:

             paiming = one.div.em.string     #排名

             names = str(one.select('div.mov_pic > a'))  #电影名称并将列表字符串化

             name = re.findall('.*?title="(.*?)">.*?', names, re.S)[0]   #使用正则表达式提取内容

             content = str(one.select('div.mov_con > p.mt3'))    #评论

             realcontent = re.findall('.*?mt3">(.*?)</p>', content, re.S)[0] #同上

             p1 = one.find(name='span', attrs={'class': 'total'}, text=re.compile('\d'))     #评分在两个节点，

             p2 = one.find(name='span', attrs={'class': 'total2'}, text=re.compile('.\d'))

             #判断评分是否为空

             if p1 and p2 != None:

                 p1 = p1.string

                 p2 = p2.string

             else:

                 p1 = 'no'

                 p2 = ' point'

             point = p1 + p2 + '分'

             numbers = one.find(text=re.compile('评分'))   #评分数量

             # 保存为csv

             csvnames = 'C:\\Users\lenovo\Desktop\\' + csvname + '.csv'

             with open(csvnames, 'a+', encoding='utf-8') as f:

                 writer = csv.writer(f)

                 if flag:

                     writer.writerow(('paiming', 'name', 'realcontent', 'point', 'numbers'))

                 writer.writerow((paiming, name, realcontent, point, numbers))

             flag = False

 #调用函数

 Japan_html = 'http://www.mtime.com/top/movie/top100_japan/'

 csvname1 = 'Japan_top'

 get_infos(Japan_html, csvname1)

 Korea_html = 'http://www.mtime.com/top/movie/top100_south_korea/'

 csvname2 = 'Korea_top'

 get_infos(Korea_html, csvname2)

这里要注意的是要有些电影没有评分，为了预防出现这种情况，所以要进行判断

注：上述没有添加华语电影top100及所有电影top100的代码，可自行添加。

爬取结果部分内容如下：

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

步骤二和三：导入数据并使用matplotlib分析，保存分析图片

 import csv

 from  matplotlib import pyplot as plt

 #中文乱码处理

 plt.rcParams['font.sans-serif'] =['Microsoft YaHei']

 plt.rcParams['axes.unicode_minus'] = False

 def read_csv(csvname):

     csvfile_name = 'C:\\Users\lenovo\Desktop\\' + csvname + '.csv'

     #打开文件并存入列表

     with open(csvfile_name,encoding='utf-8') as f:

         reader = csv.reader(f)

         header_row = next(reader)

         name = []

         for row in reader:

             name.append(row)

     #取列表中非空元素

     real = []

     for i in name:

         if len(i) != 0:

             real.append(i)

     #去除中文并将数据转换为整形

     t = 0

     ss = []

     for j in real:

         ss.append(int(real[t][4][:-5]))

         t += 1

     return ss

 #绘制对比图形

 All_plt = read_csv('bs1')  #调用函数

 China_plt = read_csv('China_top')

 Japan_plt = read_csv('Japan_top')

 Korea_plt = read_csv('Korea_top')

 shu = list(range(1,101))

 fig = plt.figure(dpi=128, figsize=(10, 6))    #设置图形界面

 plt.subplot(2,1,1)

 plt.bar(shu ,All_plt, align='center', color='green', label='World', alpha=0.6)   #绘制条图形,align指定横坐标在中心，颜色，alpha指定透明度

 plt.bar(shu ,China_plt, color='indigo', label='China', alpha=0.4)   #绘制图形，颜色， label属性用于后面使用legend方法时显示图例标签

 plt.bar(shu ,Japan_plt, color='blue', label='Japan',alpha=0.5)   #绘制图形，颜色，

 plt.bar(shu ,Korea_plt, color='yellow', label='Korea',alpha=0.5)   #绘制图形，颜色，

 plt.ylabel('评论数', fontsize=10)     #纵坐标题目，字体大小

 plt.title('不同地区的电影top100对比', fontsize=10)  #图形标题

 plt.legend(loc='best')

 plt.subplot(2,1,2)

 plt.plot(shu , All_plt, linewidth=1, c='green', label='World')   #绘制图形,指定线宽，颜色，label属性用于后面使用legend方法时显示图例标签

 plt.plot(shu ,China_plt, linewidth=1, c='indigo', label='China', ls='-.')   #绘制图形,指定线宽，颜色，

 plt.plot(shu ,Japan_plt, linewidth=1, c='green', label='Japan', ls='--')   #绘制图形,指定线宽，颜色，

 plt.plot(shu ,Korea_plt, linewidth=1, c='red', label='Korea', ls=':')   #绘制图形,指定线宽，颜色，

 plt.ylabel('comments', fontsize=10)     #纵坐标题目，字体大小

 plt.title('The different top 100 movies\'comments comparison', fontsize=10)  #图形标题

 plt.legend(loc='best')

 '''

 plt.legend()——loc参数选择

 'best' : 0,     #自动选择最好位置

  'upper right'  : 1,

  'upper left'   : 2,

  'lower left'   : 3,

  'lower right'  : 4,

  'right'        : 5,

  'center left'  : 6,

  'center right' : 7,

  'lower center' : 8,

  'upper center' : 9,

  'center'       : 10,

  '''

 plt.savefig('C:\\Users\lenovo\Desktop\\bs1.png')   #保存图片

 plt.show()  #显示图形

这里需要注意的是读取保存的csv文件并将数据传入列表时，每一个电影数据又是一个列表（先称为有效列表），每个有效列表前后都有一个空列表，所以需要将空列表删除，才能进行下一步

评分数据为string类型且有中文，所以进行遍历将中文去除并转换为int。

最后保存的对比分析图片：

本次使用的爬取方法、爬取内容、分析内容都很容易，但我在完成过程中，发现自己还是会出现各种各样的问题，说明还有很多需要改善进步的地方。

同时欢迎大家指正。

使用BeautifulSoup和正则表达式爬取时光网不同地区top100电影并使用Matplotlib对比的更多相关文章

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
[Python] 抓取时光网的电影列表并生成网页
抓取时光网的电影列表并生成网页源码 https://github.com/YouXianMing/BeautifulSoup4-WebCralwer 分析利用BeautifulSoup进行分析网页 ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
requests+正则表达式爬取ip
#requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...

随机推荐

django相关网站
记录django的学习笔记:http://www.cnblogs.com/qwj-sysu/tag/django/ uwsgi的文档:http://uwsgi-docs.readthedocs.io/ ...
Django入门五之admin管理
1. 准备工作 #settings.py #urls.py 2. 创建管理员账号进入CMD 3. 运行服务器登录后,发现没有数据的 4. 创建数据在website/blog/ 新建一个admin ...
Bagging与方差
在集成学习中,通常认为Bagging的主要作用是降低方差,而Boosting的主要作用是降低偏差.Boosting能降低偏差很好理解,因为其原理就是将多个弱学习器组合成强学习器.但Bagging为什么 ...
填坑！！！virtualenv 中 nginx + uwsgi 部署 django
一.为什么会有这篇文章第一次接触 uwsgi 和 nginx ,这个环境搭建,踩了太多坑,现在记录下来,让后来者少走弯路. 本来在 Ubuntu14.04 上搭建好了环境,然后到 centos7. ...
（六）SpringBoot2.0基础篇- Redis整合（JedisCluster集群连接）
一.环境 Redis:4.0.9 SpringBoot:2.0.1 Redis安装:Linux(Redhat)安装Redis 二.SpringBoot整合Redis 1.项目基本搭建: 我们基于(五) ...
【转】JavaScript的异常处理
当 JavaScript 引擎执行 JavaScript 代码时,有可能会发生各种异常,例如是语法异常,语言中缺少的功能,由于来自服务器或用户的异常输出而导致的异常. 而 Javascript 引擎是 ...
CSS伪类详情
参考:http://blog.csdn.net/Panda_m/article/details/50084699
PAT1034;Head of a Gang
1034. Head of a Gang (30) 时间限制 100 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue One wa ...
一个基于RBAC的通用权限设计清单
RBAC即角色访问控制(Role Based Access Control) RBAC认为权限授权实际上是Who.What.How的问题.在RBAC模型中,who.what.how构成了访问权限三元组 ...
Centos下的apache2练习
前言: 我上星期一直在写代码忘记写博客了,明天回去补回来.脚本主要用于收集信息今天刚刚学完apache.来做个总结,写的不好请多多指指出. 目标: Centos6.5的IP:192.168.1.21 ...

使用BeautifulSoup和正则表达式爬取时光网不同地区top100电影并使用Matplotlib对比

使用BeautifulSoup和正则表达式爬取时光网不同地区top100电影并使用Matplotlib对比的更多相关文章

随机推荐

热门专题