Python爬虫抓取图片（re模块处理正则表达式）

import os.path

import re

import requests

if __name__ == '__main__':

    # 如果不存在该文件夹则进行创建

    if not os.path.exists('./saimenshibo'):

        os.mkdir('./saimenshibo')

    url = 'https://www.symansbon.cn/product_ajax.aspx'

    header = {

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

    }

    # 抓取前四页的图片数据

    for i in range(1, 5):

        param = {

            't': '10',

            'page': i,

            'pid': '27',

            '_': '1666084852813'

        }

        # 得到页面源码

        page = requests.get(url=url, params=param, headers=header).text

        # 正则匹配它的src () => 匹配括号内的表达式  .*? => 惰性匹配

        ex = '<li>.*?<figure>.*?<img src="(.*?)" alt.*?</li>'

        # 获取到图片所有的url地址

        img_list = re.findall(ex, page, re.S)

        for img in img_list:

            if not str(img).startswith('https:'):

                # 获取完整URL

                img_src = 'https://www.symansbon.cn/' + img

            else:

                img_src = img

            # 根据url下载图片 .content 获取二进制数据

            img_data = requests.get(url=img_src, headers=header).content

            # img_src='Uploadfiles/Picture/2022-8-5/2022851751539645.jpg' 取xxx.jpg作为图片名称

            img_name = str(img).split('/')[-1]

            # 拼接图片的保存路径

            img_url = './saimenshibo/' + img_name

            # 第一部获取的页面上只是获取了所有图片的url，需要根据指定的URL去二进制下载对应图片数据

            with open(img_url, 'wb') as fp:

                fp.write(img_data)

                print('下载成功')

    print('下载完成！')

补充关于python re模块中re.S, re.U, re.I, re.M, re.X

修饰符	描述
re.I	忽略大小写
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B
re.X	为了增加可读性，忽略空格和 # 后面的注释

Python爬虫抓取图片（re模块处理正则表达式）的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
转载：用python爬虫抓站的一些技巧总结
原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
用python爬虫抓站的一些技巧总结 zz
用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本, ...
python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结:进阶篇一.gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45 ...

随机推荐

angular+ZORRO中nz-table 大小屏幕自适应、滚动条、点击事件
首先来说屏幕自适应 HTML <div class="container right_table"> <nz-table #basicTable nzBorder ...
git操作失误，提交代码因为网络问题没有成功，然后操作时候点错按钮导致代码全部没有了，也没用备份，如何解决
最好的提交代码办法, 1.先创建一个空文件夹, 2.然后创建一个在线仓库 3. git remote add origin '仓库地址' 4.查看远程仓库 git remote remove orig ...
Unity模块嵌入到Android中
嗨,大家好,小黑在沉寂了6个月之后,终于要继续写一篇博客了. 先吐槽一波上家公司PHD&&OMS,不吐不快.上家公司的小黑,每天不是在弄UIWidgets,就是再弄UIWidgets, ...
Linux防火墙部署与配置
Linux防火墙部署与配置 1. 实验概述 Linux作为网关,搭建小型局域网,在此基础上进行实验,了解Linux防火墙的构成.NAT和包过滤配置方法等. 2. 实验环境网络大致结构如图2-1所示, ...
12月19日内容总结——Q查询进阶、ORM查询优化、ORM事务、ORM常用字段类型和字段参数、Ajax介绍、数据编码格式、Ajax携带文件数据
目录一.Q查询进阶操作二.ORM查询优化三.ORM事务操作四.ORM常用字段类型五.ORM常用字段参数六.Ajax AJAX简介应用场景 AJAX的优点语法实现七.数据编码格式(Co ...
《Terraform 101 从入门到实践》第一章 Terraform初相识
<Terraform 101 从入门到实践>这本小册在南瓜慢说官方网站和GitHub两个地方同步更新,书中的示例代码也是放在GitHub上,方便大家参考查看. 初闻不知Terraform, ...
Linux 安装 CentOS7
1.linux 下载 http://mirrors.aliyun.com/centos/7/isos/x86_64/ centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliy ...
jquery（四：jquery的事件、Ajax）
Jquery事件 jQuery注册事件 1.利用原生的js来为对象注册事件,后面的会把前面的覆盖 2.用jQuery的$()来为对象注册事件,后面不会把前面的覆盖简单事件绑定-----click() ...
鼎阳SDS6204示波器的EPICS IOC调试
经过雷雷师弟的努力,该款示波器终于调试成功,相关文件现放在gitee仓库里: https://gitee.com/lup9304/siglent/commit/99ce00d195facd87fa1c ...
[java安全基础 03]CC1
Commons-Collerctions链条 Apache Commons-Collections简介 Apache Commons Collections是一个扩展了Java标准库里的Collect ...

Python爬虫抓取图片（re模块处理正则表达式）

Python爬虫抓取图片（re模块处理正则表达式）的更多相关文章

随机推荐

热门专题