Python爬虫运用正则表达式

我看到最近几部电影很火，查了一下猫眼电影上的数据，发现还有个榜单，里面有各种经典和热映电影的排行榜，然后我觉得电影封面图还挺好看的，想着一张一张下载真是费时费力，于是突发奇想，好像可以用一下最近学的东西实现我的需求，学习了正则表达式之后，想着要感受一下它在爬虫里面的效果和优缺点。

目标：爬取Top100榜单上电影的封面图

Top100榜单规则：将猫眼电影库中的经典影片，按照评分和评分人数从高到低综合排序取前100名，每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤：

（1）查看页面元素，找到包含图片的路径的代码段落

（2）分析图片在web上面的唯一属性，便于之后获取正确图片位置信息

（3）因为需要翻页，观察多个页面的URL变化

（4）综合以上几个点，编写合适的正则表达式

1、python 标准库中re模块提供了正则表达式的全部功能，直接引入；requests模块是http库，爬虫常用库，而urllib.requests 则是最后用到写入文件的函数

import re

import requests
import urllib.request

2、先接收URL地址的HTML页面，然后转化为str形式（正则表达式是匹配字符串），第一个pattern1缩小范围，抓取目标部分，result1接收匹配的结果，这时候所有封面图地址就在里面了

response = requests.get(url)

response = str(response.content)

patttern1 = '<dl class="board-wrapper">.+?<div class="pager-main">'

result1 = re.compile(pat).findall(response)

3、第二个正则，匹配图片的地址信息

pat2 = '<img data-src="https://(.+?\.jpg)'

photos = re.compile(pat1).findall(re1[0])

这时候爬取到100张图的信息，如下图：

4、继续下一步，把每张图片命名好，需要正确的图片地址，避免重复

x = 1

for imgurl in name:

    imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'

    imgurl = 'https://'+imgurl

    urllib.request.urlretrieve(imgurl,filename=imgname)

    x += 1

5、最后一步了，因为需要翻页爬取，所以加了一个循环，10页内容爬取下来

for i in range(0, 100, 10):

    url = 'http://maoyan.com/board/4?offset='+str(i)

    get_one_page(url, i)

    #定义函数，多次调用

相对来说，这是一个很简单的应用，也是自己学习之后的实践，在这个例子中，我是用到正则表达式来实现的，还有其他方法，而且可能简单，比如BeautifulSoup，XPath等方法，用在更加复杂的爬虫项目里面，需要的知识更多，方法更严谨，还需学习学习！

转载必须标明出处：https://www.cnblogs.com/chenzhenhong/p/11403104.html

Python爬虫运用正则表达式的更多相关文章

玩转python爬虫之正则表达式
玩转python爬虫之正则表达式这篇文章主要介绍了python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴们可以 ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
python 爬虫之-- 正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. 正则表达式非python独有,python 提供了正则表达式的接口,re模块一.正则匹配字符简介模式描述 \d ...
python爬虫训练——正则表达式+BeautifulSoup爬图片
这次练习爬传送门这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门所有图片的s ...
【python爬虫和正则表达式】爬取表格中的的二级链接
开始进公司实习的一个任务是整理一个网页页面上二级链接的内容整理到EXCEL中,这项工作把我头都搞大了,整理了好几天,实习生就是端茶送水的.前段时间学了爬虫,于是我想能不能用python写一个爬虫一个个 ...
Python爬虫之正则表达式（3）
# re.sub # 替换字符串中每一个匹配的子串后返回替换后的字符串 import re content = 'Extra strings Hello 1234567 World_This is a ...
Python爬虫之正则表达式（1）
廖雪峰正则表达式学习笔记 1:用\d可以匹配一个数字:用\w可以匹配一个字母或数字: '00\d' 可以匹配‘007’,但是无法匹配‘00A’; ‘\d\d\d’可以匹配‘010’: ‘\w\w\d’ ...
python爬虫之正则表达式
一.简介正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达式.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念 ...
Python爬虫基础——正则表达式
说到爬虫,不可避免的会牵涉到正则表达式. 因为你需要清晰地知道你需要爬取什么信息?它们有什么共同点?可以怎么去表示它们? 而这些,都需要我们熟悉正则表达,才能更好地去提取. 先简单复习一下各表达式所代 ...

随机推荐

wpf怎么绑定多个值，多个控件
最近有不少wpf新手问wpf的命令怎么绑定多个控件,很多人为此绞尽脑汁,网上的答案找了也没找到靠谱的,其实用MultiBinding就可以了.从.net 3.0版本开始,就支持MultiBinding ...
简介SoftICE是Compuware NuMega公司1的产品，是目前公认最好的系统级调试工具
简介SoftICE是Compuware NuMega公司1的产品,是目前公认最好的系统级调试工具
写给后端同学的vue
安装环境安装vue-cli 脚手架 1. 安装nodejs环境下载地址: (nodejs)[https://nodejs.org/zh-cn/download/] 安装(略) 2. 安装vue-c ...
IP地址/掩码/网关/DNS的设置与工作原理（转）
现在互联网飞速发展,工作中生活中上不了网的计算机是不可想象的,而电脑系统网络设置中的IP地址.子网掩码.默认网关及DNS服务器,怎么理解,它们是如何工作的,下面做个简单介绍. 通常的上网方式,是打开I ...
如何更换织梦cms系统的网站小图标
织梦cms建站现在已经是很普遍的建站方式了,下面小编就分享一个简单的换网站小图标的方法! 一.登录自己网站的后台管理系统.在不修改织梦后台的情况下,默认的url是自己的网站后台dede目录下访问. 二 ...
threeJS创建mesh，创建平面，设置mesh的平移，旋转、缩放、自传、透明度、拉伸
这个小案例是当初我在学习的时候,小的一个小案例,代码还需要进一步优化:还请谅解~~:主要用到了threeJS创建mesh,创建平面,设置mesh的平移,旋转.缩放.自传.透明度.拉伸等这些小功能: 采 ...
10w数组去重，排序，找最多出现次数
配置在博客底部主函数 package ooDay11.zy13; import ooDay11.zy13.hanshu.GetKeyList;import ooDay11.zy13.hanshu.G ...
JDBC秒变C3P0连接池——再加连接解耦
从JDBC连接到C3P0数据库连接池在Java开发中,使用JDBC操作数据库的四个步骤如下: ①加载数据库驱动程序(Class.forName("数据库驱动类");) ② ...
macvtap使用教程
kubernetes一键安装 macvtap是虚拟机网络虚拟化常用的一种技术,当然容器也可以用. MACVTAP 的实现基于传统的 MACVLAN. 和 TAP 设备一样,每一个 MACVTAP 设备 ...
EnjoyingSoft之Mule ESB开发教程第六篇：Data Transform - 数据转换
目录 1. 数据转换概念 2. 数据智能感知 - DataSense 3. 简单数据转换组件 3.1 Object to JSON 3.2 JSON to XML 3.3 JSON to Object ...

Python爬虫运用正则表达式

Python爬虫运用正则表达式的更多相关文章

随机推荐

热门专题