python 爬虫得到网页的图片

import urllib.request,os

import re

# 获取html 中的内容

def getHtml(url):

    page=urllib.request.urlopen(url)

    html=page.read()

    return html

path='本地存储位置'

# 保存路径

def saveFile(x):

    if not os.path.isdir(path):

        os.makedirs(path)

    t = os.path.join(path,'%s.jpg'%x)

    return  t

html=getHtml('https://。。。')

# 获取网页的图片

def getImg(html):

    # 正则表达式

    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'

    # 编译正则表达式

    imgre=re.compile(reg)

    imglist=re.findall(imgre,html.decode('utf-8'))

    x=0

    for imgurl in imglist:

        # 下载图片

        urllib.request.urlretrieve(imgurl,saveFile(x))

        print(imgurl)

        x+=1

        if x==23:

            break

    print(x)

    return imglist

getImg(html)

print('end')

正则表达式：

^ ：字符串的开始，

$: 字符串的末尾

. ：匹配任意字符，除换行符

* ：任意多的字符

+：任意大于1 的字符

?: 匹配0或1个, home-?brew ： homebrew, 或home-brew

[]: 指定一个字符类别，可以单独列出，也可以使用- 表示一个区间。[abc]匹配a,b,c 中的任意一个字符，也可以表示[a-c]的字符集

[^]: ^ 作为类别的首个字符，[^5]将匹配除5之外的任意字符

\ ：转义字符

加反斜杠取消特殊性。\ section, 为了匹配反斜杠，就得写为\\, 但是\\ 又有别的意思。。大量反斜杠。。。使用raw字符串表示，在字符串前加r,反斜杠就不会当做特殊处理，\n 表示两个字符\ 和n,而不是换行。

如： https://imgsa[^>]+\.(?:jpeg|jpg) 表示 https://imgsa（不匹配>的多余1个的字符串）.

方法/属性	作用
match()	决定 RE 是否在字符串刚开始的位置匹配
search()	扫描字符串，找到这个 RE 匹配的位置
findall()	找到 RE 匹配的所有子串，并把它们作为一个列表返回
finditer()	找到 RE 匹配的所有子串，并把它们作为一个迭代器返回

方法/属性	作用
group()	返回被 RE 匹配的字符串
start()	返回匹配开始的位置
end()	返回匹配结束的位置
span()	返回一个元组包含匹配 (开始,结束) 的位置

实现：在一个文档中找到system('***'); 并且在后面加上print('***')

文档为：

aba

cdc

system('a');

cde;

system('d');

写入 system$[\s\S]*$ 查找（\s \t\n..空白字符，\S 非空白字符，[]表示选择匹配一个，* 表示0个或多个），找到的为：

system('a');

cde;

system('d');

因为会匹配最长的一个，要匹配第一个匹配的字符串：system$[\s\S]*?$。

要替换为：

aba

cdc

system('a');
'a'

cde;

system('d');
'd'

python 爬虫得到网页的图片的更多相关文章

python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python爬虫之网页图片抓取
一.引入这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
python爬虫前程无忧网页抓取
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python爬虫之简单的图片获取
简单的静态网页的图片获取: import urllib import re import os url = 'http://www.toutiao.com/a6467889113046450702/' ...
Python 爬虫学习网页图片下载
使用正则表达式匹配 # coding:utf-8 import re import urllib def get_content(url): """ Evilxr, &q ...
[记录][python]python爬虫，下载某图片网站的所有图集
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...
python爬虫中文网页cmd打印出错问题解决
问题描述用python写爬虫,很多时候我们会先在cmd下先进行尝试. 运行爬虫之后,肯定的,我们想看看爬取的结果. 于是,我们print... 运气好的话,一切顺利.但这样的次数不多,更多地,我们会 ...

随机推荐

CF1131F Asya And Kittens（Kruskal重构树，启发式合并）
这题难度1700,我感觉又小了…… 这题虽然没几个人是用kruskal重构树的思想做的,但是我是,所以我就放了个kruskal重构树的标签. 题目链接:CF原网题目大意:有一个长为 $n$ 的排列, ...
RHEL7下用本地光盘或镜像iso文件做yum源
应用场境:Redhat 系统想要直接在线通过yum的条件时需要注册,一般用户都是非注册的,这个时候如果要想通过yum安装新软件,我们可以通过将安装盘或者镜像iso文件设置为yum源的方式来进行. 测试 ...
ElasticSearch启动错误处理方法
在配置完elasticsearch,启动程序会包如下错误: [elk@localhost bin]$ ./elasticsearch ... ... ERROR: [3] bootstrap chec ...
apache StringUtils 工具类
// org.apache.commons.lang3.StringUtils // 1.IsEmpty/IsBlank - checks if a String contains text 检查是否 ...
洛谷P2762 太空飞行计划问题
这题套路好深......没想渠. 题意:给你若干个设备,若干个任务. 每个任务需要若干设备,设备可重复利用. 完成任务有钱,买设备要钱. 问最大总收益(可以什么任务都不做). 解:最大权闭合子图. 对 ...
flask Blueprint蓝图
首先要了解蓝图的作用,模拟场景在团队开发过程中团队每个人都在写自己负责的功能模块,那多个py文件模板,我们如果完成后需要运行是不是要运行多个服务?但是我们的项目是一个整体,而不是零散的,所以我们怎么把 ...
在Linux中复制文件夹下的全部文件到另外文件夹
https://jingyan.baidu.com/article/656db918f83c0de380249c5a.html 在Linux系统中复制或拷贝文件我们可以用cp或者copy命令,但要对一 ...
mysql中CONCAT值为空的问题解决办法
在mysql中concat函数有一个特点就是有一个值为null那么不管第二个字符有多少内容都返回为空了,这个特性让我们在实例应用中可能觉得不方便,但实现就是这样我们需要使用其它办法来解决. 天在做op ...
mysql 存储过程中文乱码的解决方法
CREATE PROCEDURE `PROC_FOOBAR`(id INTEGER) BEGIN DECLARE code, user_id VARCHAR(32) CHARACTER SET utf ...
PHP三元运算符
:条件 ? 结果1 : 结果2 <?php$a=10; $b=20;$c=$a>$b?($a-$b):($a+$b);//说明:如果变量a大于变量b则执行问号后面的,否则就执行:冒 ...

python 爬虫得到网页的图片

python 爬虫得到网页的图片的更多相关文章

随机推荐

热门专题