python网络爬虫数据解析之正则

本节内容，讲解爬取网络图片，利用正则匹配图片地址

请求网页之后，响应部分内容如下图：

 1 时间：2023/1/7 10:42

 2 功能描述

 3 1.进行指定标签的定位

 4 2.标签或者标签对应的属性中存储的数据值进行提取（解析）

 5 获取图片地址并下载

 6

 7

 8 编码流程

 9 1.指定url

10 2.发起请求

11 3，数据解析

12 4.持久化存储

13

14 '''

15 import requests

16 import re   # 导入正则模块

17 import os   # 创建文件夹的时候使用

18 # 创建一个文件夹来保存下载的图片

19 if not os.path.exists('我的图片'):

20     os.mkdir('我的图片')

21 path = '我的图片'

22

23 url = 'https://www.7nua.com/nua/2022051081813.html'

24 headers= {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}

25 # 发送请求并获取响应数据，响应数据是一个html文件

26 url_text = requests.get(url, headers=headers).text

27 # 正则匹配,需要保留的匹配数据，要用（）括起来。

28 # 正则表达式要用一对单引号括起来

29 r = '<p><img src="(.*?)">'

30 # 调用正则方法findall（），第一个参数为正则表达式，第二次参数为应用的数据源，第三个参数re.S表示多行匹配，re.M表示单行匹配，一般都写多行匹配

31 # 其返回值是一个列表,主要，这里返回的是相对地址，还有自己补完整

32 lis = re.findall(r, url_text, re.S)

33 # print(lis)

34 # 我们可以复制一下图片地址，看看其完整地址是什么，好补充

35 for src in lis:

36     src = '    https://www.7nua.com'+src

37     # 请求到了图片的二进制数据,所以用content，而不用text

38     img_data = requests.get(url=src, headers=headers).content

39     # 生成图片名称，用切片函数split(),第一个参数表示以‘/'为切割符，切割好之后，取这个列表的最后一个元素，用-1

40     # 对图片地址字符串src，调用切片函数split

41     img_name = src.split('/')[-1]

42     # 保存图片

43     with open('{}/{}'.format(path,img_name), 'wb')as fp:

44         fp.write(img_data)

45         print(img_name, '下载成功!!')

46     print('所以图片下载完成！')

python网络爬虫数据解析之正则的更多相关文章

Python网络爬虫数据解析的三种方式
request实现数据爬取的流程: 指定url 基于request发起请求获取响应的数据数据解析持久化存储 1.正则解析: 常用的正则回顾:https://www.cnblogs.com/wqz ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
python网络爬虫数据中的三种数据解析方式
一.正则解析常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
python网络爬虫-数据储存（七）
数据储存主要介绍两种数据储存方法: 储存在文件中,包括text文件和csv文件存储在数据库中,包括MySQL关系型数据库和mongoDB数据库存储到txt title = "第一个文本 ...
05 Python网络爬虫的数据解析方式
一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...

随机推荐

华为设备配置ssh-client命令
ssh client first-time enable 开启首次认证功能不对ssh服务器的RSA公钥进行有效性验证 stelnet 10.1.1.2 登陆R2 sys 进入到R2的系统视图 disp ...
Pycharm安装使用
目录使用pycharm软件配置调整下载链接地址:https://www.jetbrains.com/pycharm/download/#section=windows 根据自己的系统需要安装对应 ...
通过netty把百度地图API获取的地理位置从Android端发送到Java服务器端
本篇记录我在实现时的思考过程,写给之后可能遇到困难的我自己也给到需要帮助的人. 写的比较浅显,见谅. 在写项目代码的时候,需要把Android端的位置信息传输到服务器端,通过Netty达到连续传输的效 ...
dotnet 用 SourceGenerator 源代码生成技术实现中文编程语言
相信有很多伙伴都很喜欢自己造编程语言,在有现代的很多工具链的帮助下,实现一门编程语言,似乎已不是一件十分困难的事情.我利用 SourceGenerator 源代码生成技术实现了一个简易的中文编程语言, ...
复杂场景数据处理的 OLTP 与 OLAP 融合实践
本文首发于 NebulaGraph 公众号 Dag Controller 介绍 Dag Controller 是 NebulaGraph 企业版的系统,经过反复测试无误后进行了发布,它主要解决的是 O ...
京东云开发者| Redis数据结构(二)-List、Hash、Set及Sorted Set的结构实现
1 引言之前介绍了Redis的数据存储及String类型的实现,接下来再来看下List.Hash.Set及Sorted Set的数据结构的实现. 2 List List类型通常被用作异步消息队列.文 ...
python删除某一文件夹下的重复文件
#2022-10-28 import hashlib import os import time def getmd5(filename): """ 获取文件 md5 码 ...
R数据分析：扫盲贴，什么是多重插补
好多同学跑来问,用spss的时候使用多重插补的数据集,怎么选怎么用?是不是简单的选一个做分析?今天写写这个问题. 什么时候用多重插补首先回顾下三种缺失机制或者叫缺失类型: 上面的内容之前写过,这儿就 ...
逆向使用 execjs时遇到 UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 28: illegal multibyte sequence
问题: 如下图所示今天在维护以前的爬虫代码发现有个网站一直爬取失败,我原以为是网站逆向的部分改了,搞了好久才发现是GBK的问题接下来告诉大家解决方案解决方案如下图在下图这个subbsubp ...
Uniapp And Taro一些小测评
前情最近公司准备新开发一个小程序项目,对于使用哪一款小程序框架有一些犹豫,我有过2年左右的uniapp项目开发经验,Taro在刚刚出来的时候有尝试过,经常莫名报错需要重启,在内心是有些偏向uniap ...

python网络爬虫数据解析之正则

python网络爬虫数据解析之正则的更多相关文章

随机推荐

热门专题