一.re

　　这个去匹配比较麻烦,以后也比较少用,简单看一个案例就行

'''

    爬取数据流程:

        1.指定url

        2.发起请求

        3.获取页面数据

        4.数据解析

        5.持久化存储

'''

import requests

import re

import os

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

url = 'https://www.qiushibaike.com/pic/'

#获取一整张页面数据源码

page_text = requests.get(url=url,headers=headers).text

#解析数据(将所有的图片链接获取)

'''

<div class="thumb">

<a href="/article/121534421" target="_blank">

<img src="//pic.qiushibaike.com/system/pictures/12153/121534421/medium/R0ZJYJDN8THHM0RS.jpg" alt="image">

</a>

</div>

'''

if not os.path.exists('qiubai'):

    os.mkdir('qiubai')

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

img_url_list = re.findall(ex,page_text,re.S)#re.S单行匹配

for url in img_url_list:

    url = 'https:'+url

    img_data = requests.get(url=url,headers=headers).content

    img_name = url.split('/')[-1]

    img_path = 'qiubai/'+img_name

    with open(img_path,'wb') as fp:

        fp.write(img_data)

        print(img_name+'下载成功!!!')

二.使用re的注意点

1.Windows转义符

2.避免出错

　　在正则表达式中尽量使用原始字符串，在待匹配字符中看到什么就在正则表达式中写什么，不容易出问题

　　原始字符串的查看，可以借助ipython去查看，不要使用print

3.

re.findall('a(.*?)b','str')能返额回括号中的内容，括号前后的内容能起到一个定位的效果
原始字符串，待匹配字符串出现反斜杠的时候，可以使用r来忽略反斜杠带来的转义效果
点号默认匹配不到'\n'
'/s'能匹配空白字符，不仅仅包括空格，还有'/t|\r\n'

爬虫之re块解析的更多相关文章

05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取结构化数据:先有的结构,再谈数据 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...

随机推荐

Installing R under Unix-alikes
Linux上R的安装可参考https://cran.r-project.org/doc/manuals/r-release/R-admin.html#Installing-R-under-Unix_ ...
浅谈android代码保护技术_加固
可看原文: http://www.cnblogs.com/jiaoxiake/p/6536824.html 导语我们知道Android中的反编译工作越来越让人操作熟练,我们辛苦的开发出一个apk,结 ...
try-catch-finally对返回值的影响
catch 和 finally 一起使用的常见方式是:在 try 块中获取并使用资源,在 catch 块中处理异常情况,并在 finally 块中释放资源. finally 块用于清理try块分配的任 ...
使用dockerfile-maven-plugin发布docker到私有仓库
要想拥有私有docker仓库,需要安装registry镜像,最新版时2.0,具体可以看文档:https://docs.docker.com/registry/. 1. docker pull regi ...
来自网易云的黑科技，带尖角的div......
今天在网易云的网页版听歌,话说Steve Vai的曲子永远是这么让人揣摩不透,不过我还时更喜欢老Joe,咦,跑题了··· 大家可以看到评论输入框和回复框,上面都有个小尖角,实现的方式有很多,我一般是用 ...
java學習書
轉載成为Java顶尖程序员 ,看这11本书就够了以下是我推荐给Java开发者们的一些值得一看的好书.但是这些书里面并没有Java基础.Java教程之类的书,不是我不推荐,而是离我自己学习 Java ...
[.net 多线程]ThreadPool的安全机制
ThreadPool类,有两个方法我们没有用到,UnsafeQueueUserWorkItem 和UnsafeRegisterWaitForSingleObject. 为了完全理解这些方法,首先,我们 ...
为什么 kubernetes 天然适合微服务（2）
此文已由作者刘超授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验三.微服务化的十个设计要点微服务有哪些要点呢?第一张图是 SpringCloud 的整个生态. 第二张图是微服 ...
C# 在Winform设计一个耗时较久的任务在后台执行时的状态提示窗口
很多时候,我们需要在窗体中执行一些耗时比较久的任务.比如:循环处理某些文件,发送某些消息等... 单纯的依靠状态栏,用户体验不佳,按下功能按钮后得不到有效的提醒,小白用户绝对会电话给你说“我点了以后就 ...
CKEditor富⽂本编辑器
在运营后台,运营⼈员需要录⼊商品并编辑商品的详情信息,⽽商品的详情信息不是普通的⽂本, 可以是包含了HTML语法格式的字符串.为了快速简单的让⽤户能够在⻚⾯中编辑带格式的⽂本,我们引⼊富⽂本编辑器.富 ...

爬虫之re块解析

一.re

二.使用re的注意点

1.Windows转义符

2.避免出错

3.

爬虫之re块解析的更多相关文章

随机推荐

热门专题