requests和正则表达式爬取猫眼电影Top100练习

 1 import requests

 2 import re

 3 from multiprocessing import Pool

 4 from requests.exceptions import RequestException

 5 import json

 6 import time

 7

 8

 9 # 抓取单页内容

10 def get_one_page(url):

11     headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "

12                              "Chrome/85.0.4183.121 Safari/537.36"}

13     try:

14         response = requests.get(url, headers=headers)

15         if response.status_code == 200:

16             return response.text

17         else:

18             return None

19     except RequestException:

20         return None

21

22

23 # 解析单页内容

24 def parser_one_page(html):

25     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>'

26                          + '.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>'

27                          + '.*?</dd>', re.S)

28     contents = re.findall(pattern, html)

29     for content in contents:

30         yield {                                   # 生成一个generator，对区域内的内容进行迭代处理

31             'index': content[0],

32             'image': content[1],

33             'name': content[2].strip(),

34             'actor': content[3].strip()[3:],

35             'time': content[4][5:],

36             'score': content[5]+content[6]

37         }

38

39

40 # 将单页内容写入文件

41 def write_to_file(content):

42     with open('猫眼电影.txt', 'a', encoding='utf-8') as f:

43         f.write(json.dumps(content, ensure_ascii=False) + '\n')

44         f.close()

45

46

47 def main(offset):

48     url = 'http://maoyan.com/board/4?offset=' + str(offset)

49     html = get_one_page(url)

50     for item in parser_one_page(html):

51         write_to_file(item)

52

53 if __name__ == "__main__":

54     time1 = time.time()

55     for i in range(0, 100, 10):

56         main(i)

57     time2 = time.time()

58     pool = Pool()    # 使用多进程提高爬取效率

59     pool.map(main, [i*10 for i in range(0, 10)])

60     time3 = time.time()

61     print(time2-time1)    # for...in花费时间

62     print(time3-time2)    # 多线程花费时间

运行时间如下：

补充对yield用法的理解：

requests和正则表达式爬取猫眼电影Top100练习的更多相关文章

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）
# encoding:utf-8 from requests.exceptions import RequestException import requests import re import j ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫练习之正则表达式爬取猫眼电影Top100
#猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...

随机推荐

面经手册 · 第8篇《LinkedList插入速度比ArrayList快？你确定吗？》
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言你以为考你个数据结构是要造火箭? 汽车75马力就够奔跑了,那你怎么还想要2.0涡轮+ ...
QT_QGIS_基本使用
QT_QGIS_基本使用 1.新建画布 2.添加矢量图层 1.打开矢量图层 2.新建矢量图层 1.添加几何要素--点 2.添加几何要素--线 3.添加栅格图层 1.打开栅格图层小 ...
Android开发工具资料Android Manifest 权限描述大全随时随地查询权限描述。
作者:程序员小冰,CSDN博客:http://blog.csdn.net/qq_21376985转载请说明出处. 在文章最后面赠送了markdown格式的此文章内容下载.(不要再问问什么用markdo ...
unity3d android动态更新dll
基本是参考这篇文章:http://blog.sina.com.cn/s/blog_9e5d42ee0102vvtg.html,进行了增删一波. 大略说一下基本步骤:1.下载mono源码,修改源码,编译 ...
Weights and Measures (贪心+dp)
I know, up on top you are seeing great sights, But down at the bottom, we, too, should have rights. ...
基于PHP实现CMS识别
最近正在开发一款基于PHP实现的Web安全检测平台,写到了CMS识别这一功能,便写一篇文章总结一下. 首先需要梳理的是CMS识别的几种方法: 1.网页源代码特征:例如源代码中包含CMS的名称或是某种特 ...
免费获取 IntelliJ IDEA 激活码的 6 种方式！
你还在满世界找 IntelliJ IDEA 激活码? 破解的不稳定,也是违法的,有安全风险还不一定,不建议大家使用来历不明的补丁. 今天栈长就分享免费获取 IntelliJ IDEA 的 6 种方式, ...
截图还在使用QQ的Ctrl + Alt + A 截图？还不会网页长截图？
截图还在使用QQ的Ctrl + Alt + A 截图?还不会网页长截图? 手机自带快捷键,常常使用组合键进行快速截图编辑发好友.保存等,但是貌似到了电脑截图就出现了一大堆拍屏幕党,不少人需要打开微 ...
[Java]取得当前代码所在函数的函数名
要取得当前运行代码的函数名,可以用: Thread.currentThread().getStackTrace()[1].getMethodName(); 但是,这行代码有些过长,嵌入业务代码稍显突兀 ...
区块链Fabric 交易流程
1. 提交交易预案 1)应用端首先构建交易的预案,预案的作用是调用通道中的链码来读取或者写入账本的数据.应用端使用 Fabric 的 SDK 打包交易预案,并使用用户的私钥对预案进行签名. 应用打包完 ...

requests和正则表达式爬取猫眼电影Top100练习

requests和正则表达式爬取猫眼电影Top100练习的更多相关文章

随机推荐

热门专题