<爬虫实战>豆瓣电影TOP250（三种解析方法）

1.豆瓣电影排行.py

# 目标：爬取豆瓣电影排行榜TOP250的电影信息

# 信息包括：电影名字，上映时间，主演，评分，导演，一句话评价

# 解析用学过的几种方法都实验一下①正则表达式.②BeautifulSoup③xpath

import requests

import re  # 正则表达式

import json

from bs4 import BeautifulSoup  # BS

from lxml import etree  # xpath

def get_one_page(url):

	response = requests.get(url)

	if response.status_code == 200:

		return response.text

	return None

def zhengze_parse(html):

	pattern = re.compile(

		'<em class="">(.*?)</em>.*?<img.*?alt="(.*?)".*?src="(.*?)".*?property="v:average">(.*?)</span>.*?<span>(.*?)</span>.*?'

		+ 'class="inq">(.*?)</span>',

		re.S)

	items = re.findall(pattern, html)

	# 因为125个影片没有描述，根本没有匹配到- -，更改也简单，描述单独拿出来，这里我就不改了

	for item in items:

		yield {

			'index': item[0],

			'image': item[2],

			'title': item[1],

			'people': item[4].strip()[:-2],

			'score': item[3],

			'Evaluation': item[5]

		}

def soup_parse(html):

	soup = BeautifulSoup(html, 'lxml')

	for data in soup.find_all('div', class_='item'):

		index = data.em.text

		image = data.img['src']

		title = data.img['alt']

		people = data.find_all('span')[-2].text[:-2]

		score = data.find('span', class_='rating_num').text

		# 第125个影片没有描述，用空代替

		if data.find('span', class_='inq'):

			Evaluation = data.find('span', class_='inq').text

		else:

			Evaluation = ''

		yield {

			'index': index,

			'image': image,

			'title': title,

			'people': people,

			'score': score,

			'Evaluation': Evaluation,

		}

def xpath_parse(html):

	html = etree.HTML(html)

	for data in html.xpath('//ol[@class="grid_view"]/li'):

		index = data.xpath('.//em/text()')[0]

		image = data.xpath('.//a/img/@src')[0]

		title = data.xpath('.//a/img/@alt')[0]

		people = data.xpath('.//div[@class="star"]/span[4]/text()')[0][:-2]

		score = data.xpath('.//div[@class="star"]/span[2]/text()')[0]

		# 第125个影片没有描述，用空代替

		if data.xpath('.//p[@class="quote"]/span/text()'):

			Evaluation = data.xpath('.//p[@class="quote"]/span/text()')[0]

		else:

			Evaluation = ''

		yield {

			'index': index,

			'image': image,

			'title': title,

			'people': people,

			'score': score,

			'Evaluation': Evaluation,

		}

def write_to_file(content, flag):

	with open('豆瓣电影TOP250(' + str(flag) + ').txt', 'a', encoding='utf-8')as f:

		f.write(json.dumps(content, ensure_ascii=False) + '\n')

def search(Num):

	url = 'https://movie.douban.com/top250?start=' + str(Num)

	html = get_one_page(url)

	for item in zhengze_parse(html):

		write_to_file(item, '正则表达式')

	for item in soup_parse(html):

		write_to_file(item, 'BS4')

	for item in xpath_parse(html):

		write_to_file(item, 'xpath')

	page = str(Num / 25 + 1)

	print("正在爬取第" + page[:-2] + '页')

def main():

	# 提供页码

	for i in range(0, 10):

		Num = i * 25

		search(Num)

	print("爬取完成")

if __name__ == '__main__':

	# 入口

	main()

第125个电影显示信息（赶紧去加个描述吧）

2.打包

pyinstaller -F 豆瓣电影排行.py

3.运行效果

<爬虫实战>豆瓣电影TOP250（三种解析方法）的更多相关文章

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
爬虫实战豆瓣音乐top250 xpath
刷知乎时刷到一篇爬取豆瓣音乐top250的,然后看了看,感觉自己的爬虫又更上一层楼了哈啊哈哈,尤其是发现xpath这么好用的东西. 不过也有一个感慨,就是有很多种方式都可以获得想要的数据,对于入门的新 ...
第一个爬虫经历----豆瓣电影top250(经典案例)
因为要学习数据分析,需要从网上爬取数据,所以开始学习爬虫,使用python进行爬虫,有好几种模拟发送请求的方法,最基础的是使用urllib.request模块(python自带,无需再下载),第二是r ...
爬虫_豆瓣电影top250 （正则表达式）
一样的套路,就是多线程还没弄 import requests import re import json headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
Python_XML的三种解析方法
什么是XML? XML 指可扩展标记语言(eXtensible Markup Language). XML 被设计用来传输和存储数据. XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这 ...
QT XML文档的解析 QXmlStreamReader， DOM，SAX 三种解析方法简单示例
0. xml文档如下 <?xml version="1.0"?> <bookindex> <entry term="sidebearings ...
iOS--XML三种解析方法（ XMLDictionary）、（GDataXMLNode）、（NSXMLParser）
iOS9之后,默认网络请求是https,所有我们要设置一下网络安全,具体设置如下 1.第三方类库 XMLDictionary 下载地址: https://github.com/nicklockwood ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

随机推荐

sklearn中standardscaler中fit_transform()和transform()有什么区别，应该怎么使用？
在根据机器学习书中提供的实例中,看到需要对训练和测试的特征数据进行标准化. 但是使用的是有两个函数, 对于训练数据,使用的是fit_transform()函数对于测试数据,使用的是tansform( ...
WIN7下怎么安装iis教程
点击开始→控制面板,然后再点击程序,勿点击卸载程序,否则到不了目标系统界面. 2 然后在程序和功能下面,点击打开和关闭windows功能. 3 进入Windows功能窗口,然后看到internet信息 ...
将.opt、.frm、.MYD、.MYI文件放入mysql
问题:如果数据库没有给sql脚本而且给的.opt..frm..MYD..MYI这些文件,应该如何加载呢???? 解答:首先需要找到“mysql的安装目录/data/”,怎么找?mysql命令执行“sh ...
Vue 学习笔记之 —— 表单输入绑定
Vue 中文文档 https://cn.vuejs.org/ 不多说,直接上干货. v-model 指定,用来在input textarea 等表单元素上创建双向数据绑定,负责监听用户的输入事件,以及 ...
剑指offer——38二叉搜索树与双向链表
题目描述输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 题解: 在搜索二义树中,左子节点的值总是小于父节点的值,右子节点的值总 ...
图像处理_Image
1. 安装输入 pip install PIL报错: ERROR: Could not find a version that satisfies the requirement PI ...
gary's mod
第一题: class Parent(object): x = 1 class Child1(Parent): pass class Child2(Parent): pass print(Parent. ...
Codeforces Round #536 E. Lunar New Year and Red Envelopes /// 贪心记忆化搜索 multiset取最大项
题目大意: 给定n m k:(1≤n≤1e5, 0≤m≤200, 1≤k≤1e5) 表示n个时间长度内最多被打扰m次 k个红包接下来k行描述红包 s t d w:(1≤s≤t≤d≤n , 1≤w≤ ...
2018-8-10-win10-uwp-反射
title author date CreateTime categories win10 uwp 反射 lindexi 2018-08-10 19:17:19 +0800 2018-2-13 17: ...
day03 mysql外键表的三种关系单表查询 navicat
day03 mysql navicat 一.完整性约束之外键 foreign key 一个表(关联表: 是从表)设置了外键字段的值, 对应的是另一个表的一条记录(被关联表: 是主 ...

<爬虫实战>豆瓣电影TOP250（三种解析方法）

1.豆瓣电影排行.py

2.打包

3.运行效果

<爬虫实战>豆瓣电影TOP250（三种解析方法）的更多相关文章

随机推荐

热门专题