<爬虫实战>豆瓣电影TOP250（三种解析方法）

1.豆瓣电影排行.py

# 目标：爬取豆瓣电影排行榜TOP250的电影信息

# 信息包括：电影名字，上映时间，主演，评分，导演，一句话评价

# 解析用学过的几种方法都实验一下①正则表达式.②BeautifulSoup③xpath

import requests

import re  # 正则表达式

import json

from bs4 import BeautifulSoup  # BS

from lxml import etree  # xpath

def get_one_page(url):

	response = requests.get(url)

	if response.status_code == 200:

		return response.text

	return None

def zhengze_parse(html):

	pattern = re.compile(

		'<em class="">(.*?)</em>.*?<img.*?alt="(.*?)".*?src="(.*?)".*?property="v:average">(.*?)</span>.*?<span>(.*?)</span>.*?'

		+ 'class="inq">(.*?)</span>',

		re.S)

	items = re.findall(pattern, html)

	# 因为125个影片没有描述，根本没有匹配到- -，更改也简单，描述单独拿出来，这里我就不改了

	for item in items:

		yield {

			'index': item[0],

			'image': item[2],

			'title': item[1],

			'people': item[4].strip()[:-2],

			'score': item[3],

			'Evaluation': item[5]

		}

def soup_parse(html):

	soup = BeautifulSoup(html, 'lxml')

	for data in soup.find_all('div', class_='item'):

		index = data.em.text

		image = data.img['src']

		title = data.img['alt']

		people = data.find_all('span')[-2].text[:-2]

		score = data.find('span', class_='rating_num').text

		# 第125个影片没有描述，用空代替

		if data.find('span', class_='inq'):

			Evaluation = data.find('span', class_='inq').text

		else:

			Evaluation = ''

		yield {

			'index': index,

			'image': image,

			'title': title,

			'people': people,

			'score': score,

			'Evaluation': Evaluation,

		}

def xpath_parse(html):

	html = etree.HTML(html)

	for data in html.xpath('//ol[@class="grid_view"]/li'):

		index = data.xpath('.//em/text()')[0]

		image = data.xpath('.//a/img/@src')[0]

		title = data.xpath('.//a/img/@alt')[0]

		people = data.xpath('.//div[@class="star"]/span[4]/text()')[0][:-2]

		score = data.xpath('.//div[@class="star"]/span[2]/text()')[0]

		# 第125个影片没有描述，用空代替

		if data.xpath('.//p[@class="quote"]/span/text()'):

			Evaluation = data.xpath('.//p[@class="quote"]/span/text()')[0]

		else:

			Evaluation = ''

		yield {

			'index': index,

			'image': image,

			'title': title,

			'people': people,

			'score': score,

			'Evaluation': Evaluation,

		}

def write_to_file(content, flag):

	with open('豆瓣电影TOP250(' + str(flag) + ').txt', 'a', encoding='utf-8')as f:

		f.write(json.dumps(content, ensure_ascii=False) + '\n')

def search(Num):

	url = 'https://movie.douban.com/top250?start=' + str(Num)

	html = get_one_page(url)

	for item in zhengze_parse(html):

		write_to_file(item, '正则表达式')

	for item in soup_parse(html):

		write_to_file(item, 'BS4')

	for item in xpath_parse(html):

		write_to_file(item, 'xpath')

	page = str(Num / 25 + 1)

	print("正在爬取第" + page[:-2] + '页')

def main():

	# 提供页码

	for i in range(0, 10):

		Num = i * 25

		search(Num)

	print("爬取完成")

if __name__ == '__main__':

	# 入口

	main()

第125个电影显示信息（赶紧去加个描述吧）

2.打包

pyinstaller -F 豆瓣电影排行.py

3.运行效果

<爬虫实战>豆瓣电影TOP250（三种解析方法）的更多相关文章

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
爬虫实战豆瓣音乐top250 xpath
刷知乎时刷到一篇爬取豆瓣音乐top250的,然后看了看,感觉自己的爬虫又更上一层楼了哈啊哈哈,尤其是发现xpath这么好用的东西. 不过也有一个感慨,就是有很多种方式都可以获得想要的数据,对于入门的新 ...
第一个爬虫经历----豆瓣电影top250(经典案例)
因为要学习数据分析,需要从网上爬取数据,所以开始学习爬虫,使用python进行爬虫,有好几种模拟发送请求的方法,最基础的是使用urllib.request模块(python自带,无需再下载),第二是r ...
爬虫_豆瓣电影top250 （正则表达式）
一样的套路,就是多线程还没弄 import requests import re import json headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
Python_XML的三种解析方法
什么是XML? XML 指可扩展标记语言(eXtensible Markup Language). XML 被设计用来传输和存储数据. XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这 ...
QT XML文档的解析 QXmlStreamReader， DOM，SAX 三种解析方法简单示例
0. xml文档如下 <?xml version="1.0"?> <bookindex> <entry term="sidebearings ...
iOS--XML三种解析方法（ XMLDictionary）、（GDataXMLNode）、（NSXMLParser）
iOS9之后,默认网络请求是https,所有我们要设置一下网络安全,具体设置如下 1.第三方类库 XMLDictionary 下载地址: https://github.com/nicklockwood ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

随机推荐

go routine
无缓冲 channel 是在多个 goroutine 之间同步很棒的工具. 当在 Go 中用 ch := make ( chan bool ) 创建 chennel 时,bool 型的无缓冲 cha ...
ajax url地址
当前网址 http://localhost:8080/exam_paper/402881ec5c3924ec015c394ee4210000/set_questions ajax请求url var u ...
【转】Linux系统抓包命令tcpdump使用实例
tcpdump是linux命令行下常用的的一个抓包工具,记录一下平时常用的方式,测试机器系统是ubuntu 12.04. tcpdump的命令格式tcpdump的参数众多,通过man tcpdump可 ...
通过Module读取寄存器的值
1: int eax; 2: _asm_("nop":"=a"(eax)); 3: printk("Get Eax Value:\n"); ...
词表征 1：WordNet、0-1表征、共现矩阵、SVD
原文地址:https://www.jianshu.com/p/c1e4f42b78d7 一.基于知识的表征参见图1.1,WordNet中包含同义词集(synonym sets)和上位词(hypern ...
PAT_A1139#First Contact
Source: PAT A1139 First Contact (30 分) Description: Unlike in nowadays, the way that boys and girls ...
【Python】- scrapy 爬取图片保存到本地、且返回保存路径
https://blog.csdn.net/xueba8/article/details/81843534
SDL系列之 - 用画直线的方法来画正弦曲线
线段长度无限短后就成为点,所以,现在让我们用画直线的方法来画正弦曲线吧 #include <SDL.h> #include <stdlib.h> #include <st ...
ArcGis面要素空间连接，取相交面积最大者 C#
核心代码: #region JoinWork_IntersectMax private void CreateNewFields_IntersectMax(IFeatureClass destFeat ...
Berry 指令设计
Berry 脚本源代码需要被编译为字节码指令流才能被 Berry 虚拟机执行.本文将详细地讲解 Berry 字节码指令(下面简称指令)的设计和实现.为了达到这个目的,本文由 3 部分构成:第 1 小节 ...

<爬虫实战>豆瓣电影TOP250（三种解析方法）

1.豆瓣电影排行.py

2.打包

3.运行效果

<爬虫实战>豆瓣电影TOP250（三种解析方法）的更多相关文章

随机推荐

热门专题