python获取豆瓣电影TOP250的所有电影的相关信息

参考文档：https://weread.qq.com/web/reader/37132a705e2b2f37196c138k98f3284021498f137082c2e

说明：我才接触网络爬虫，在看《python网络爬虫入门到实践》一书时，作者写了个实例获取豆瓣电影TOP250的所有电影的电影名称，我在此基础上进行了更进一步的改进，获取了所有的相关信息，并用表格将这些信息保存下来。

相关知识：

网络爬虫分为三个步骤：第一步：伪装为浏览器访问；第二步：解析网页代码；第三步：存储数据。

（1）第一步使用requests模块实现

我们需要使用到request模块的get()方法，该方法模仿为浏览器访问，返回的是网页代码内容。

参考文档：http://cn.python-requests.org/zh_CN/latest/user/quickstart.html#url

（2）第二步使用BeautifulSoup模块实现

我们需要用到BeautifulSoup的find_all()方法。使用find_all()方法可通过标签的不同属性过滤html页面。定义如下：

find_all(self, name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

name：可以传入一个标签或多个标签名称组成的python列表。例如：findAll([‘h1’, ‘h2’])

attrs：用一个python字典封装的一个标签的若干属性和对应的属性值。例如：findAll(‘span’, {‘class’: {‘green’, ‘red’}})

recursive：布尔变量，若为True，findAll会根据要求去查找标签参数的所有子标签，以及子标签的子标签。若为False，findAll只查找文档的一级标签。

text：用标签的文本内容去匹配，而不是标签的属性。

limit：如果只对网页中获取的前x项感兴趣，可设置它。

kwargs：选择那些具有指定属性的标签。

参考链接：https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

（3）第三步我们将数据存放在表格中。

我们使用xlwt模块进行表格的写入操作，将获取到的信息保存到表格中。

代码如下：

 1 # encoding:utf-8

 2

 3 '''

 4 目的：获取豆瓣电影TOP250的所有电影的相关信息，网页地址为：https://movie.douban.com/。

 5 环境：python 3.7.3

 6 所需的库：requests、BeautifulSoup、xlwt

 7 '''

 8

 9 import logging

10 import xlwt

11 import requests

12 import string

13 from bs4 import BeautifulSoup

14

15 headers = {

16     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',\

17     'Host': 'movie.douban.com'

18 }

19

20 # 将获取的信息保存到表格中

21 def save_movie(content):

22     workbook = xlwt.Workbook(encoding = 'ascii')

23     worksheet = workbook.add_sheet('Movies info')

24     style = xlwt.XFStyle() # 初始化样式

25     font = xlwt.Font() # 为样式创建字体

26     font.name = 'Times New Roman'

27     font.bold = True # 黑体

28     font.underline = True # 下划线

29     font.italic = True # 斜体字

30     style.font = font # 设定样式

31     worksheet.write(0, 0, 'title')

32     worksheet.write(0, 1, 'actor')

33     worksheet.write(0, 2, 'score')

34     worksheet.write(0, 3, 'quote')

35     for i, item in enumerate(content):

36         for j in range(4):

37             worksheet.write(i+1, j, content[i][j])

38     workbook.save('./movie_info.xls') # 保存文件

39

40

41 # 获取与move相关的信息

42 # 主要包括：title、actor、score、quote

43 def get_moves():

44     movies_info = []

45     movies_titles = []

46     movies_actors = []

47     movies_scores = []

48     movies_quotes = []

49

50     for i in range(10):

51         link = 'https://movie.douban.com/top250?start=%d&filter=' % i*25

52         r = requests.get(link, headers=headers, timeout=10)

53         print (str(i+1), '页响应状态码：', r.status_code)

54         soup = BeautifulSoup(r.text, 'lxml')

55         soup = BeautifulSoup(r.text, 'lxml')

56         div_hd_list = soup.findAll('div', {'class': 'hd'})

57         div_bd_list = soup.findAll('div', {'class': 'bd'})

58         score_list = soup.findAll('span', {'class': 'rating_num'})

59         quote_list = soup.findAll('p', {'class': 'quote'})

60         for item in div_hd_list:

61             title = item.a.span.text.strip()

62             movies_titles.append(title)

63         for i, item in enumerate(div_bd_list):

64             if (i == 0): continue

65             content = item.p.text.strip().replace(u'\xa0', u'')

66             actor = content[: content.find(u'主演')]

67             actor = actor[:actor.find(u'主')]

68             movies_actors.append(actor)

69         for item in score_list:

70             score = item.text.strip()

71             movies_scores.append(score)

72         for item in quote_list:

73             quote = item.span.text.strip()

74             movies_quotes.append(quote)

75     print (len(movies_actors))

76     print (len(movies_quotes))

77     for i in range(len(movies_titles)):

78         item = [movies_titles[i], movies_actors[i], movies_scores[i], movies_quotes[i]]

79         movies_info.append(item)

80

81     return movies_info

82

83

84 if __name__ == "__main__":

85     movies_info =  get_moves()

86     save_movie(movies_info)

上述代码在获取“导演”这个信息时，使用div_bd_list = soup.findAll('div', {'class': 'bd'})获取到的列表第一个元素需要除去，不是我们想要的元素。

代码中的findAll()方法就是find_all()方法，findAll = find_all。

另外代码中的header信息可以在浏览器（我使用的是chrome）中获得：在chrome中点击检查，在选择network可以看到Request Headers请求头的主要信息。

python获取豆瓣电影TOP250的所有电影的相关信息的更多相关文章

python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
爬虫实战【11】Python获取豆瓣热门电影信息
之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片. 今天我们在豆瓣上获取一些热门电影的信息. 页面分析首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影, ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
python获取豆瓣日记
最近迷上了看了四个春天,迷上了饭叔的豆瓣日记,想全部抓取下来,简单了写了下面的脚本 import urllib.request import os from bs4 import BeautifulS ...
Python网络爬虫 - 爬取中证网银行相关信息
最终版:07_中证网(Plus -Pro).py # coding=utf-8 import requests from bs4 import BeautifulSoup import io impo ...
iOS获取手机相关信息
iOS具体的设备型号: #include <sys/types.h> #include <sys/sysctl.h> - (void)test { //手机型号. size_t ...
【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
[Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...

随机推荐

Django框架——ORM执行SQL语句、神奇的双下划线、外键字段的创建、跨表查询、进阶操作
ORM执行SQL语句有时候ORM的操作效率可能偏低我们是可以自己编写SQL的方式一: models.User.objects.raw('select * from app01_user') 方式 ...
nuxt使用介绍[学习记录]
服务端渲染传统服务端渲染单页面应用 SPA nuxt 是什么 Nuxt.js 是一个基于 Vue.js 的通用应用框架. 通过对客户端/服务端基础架构的抽象组织,Nuxt.js 主要关注的是应用的 ...
Sentinel 1.7.2 发布，完善开源生态及扩展性
多样化的适配模块到目前为止,Sentinel 已覆盖微服务.API Gateway 和 Service Mesh 三大板块的核心生态,同时多语言已推出 Java.C++.Go 三种语言的原生实现. ...
阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)
简介:EPL背后的技术框架是如何设计的?开发者可以怎么使用EPL?EPL未来有哪些规划?今天一起来深入了解. 作者 | 王林.飒洋来源 | 阿里技术公众号一导读最近阿里云机器学习PAI平 ...
揭秘！阿里实时数仓分布式事务Scale Out设计
简介: Hybrid Transaction Analytical Processing(HTAP) 是著名信息技术咨询与分析公司Gartner在2014年提出的一个新的数据库系统定义,特指一类兼具O ...
Forrester云原生开发者洞察白皮书，低代码概念缔造者又提出新的开发范式
简介: 云原生时代的到来为开发者群体带来了前所未有的机遇,让开发者可以更加专注业务价值创造与创新,并使得人人成为开发者成为现实.广大开发者如何转型成为云原生开发者?运维等专业人员在云原生时代如何避免边 ...
阿里巴巴 DevOps 工具体系
简介: 随着阿里巴巴多元化业务 20 多年的高速发展,技术体系经历了 web 时代.移动化时代.数据智能时代.云计算时代等多个重大变革.在这些变革中,开发者面对的技术体系.工具体系.知识体系也在不断 ...
使用亚马逊AWS云服务器进行深度学习——免环境配置/GPU支持/Keras/TensorFlow/OpenCV
前言吐槽:由于科研任务,需要在云端运行一个基于神经网络的目标识别库,需要用到GPU加速.亚马逊有很多自带GPU的机器,但是环境的配置可折腾坏了,尤其是opencv,每次总会出各种各样的问题! 无奈中 ...
🔥 PyTorch神操作：一图秒懂Tensor变形记！
亲爱的码农小伙伴们,你们是否还在为Tensor的各种变换头大如斗?别怕,今天给大家送上一张超实用的PyTorch变换秘籍图,让你的Tensor操作如行云流水,CPU和GPU之间的切换如穿梭自如! GP ...
Mybatis学习一（介绍/举例/优化）
MyBatis介绍: MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射.MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集.MyBatis ...

python获取豆瓣电影TOP250的所有电影的相关信息

python获取豆瓣电影TOP250的所有电影的相关信息的更多相关文章

随机推荐

热门专题