python 爬站长素材网页图片
一、我们要用python第三方库:
import requests
import re
二、找到自己感兴趣的网页图片:
for i in range(1,2):
url = "https://sc.chinaz.com/tupian/index.html" # 网站地址
if i ==1:
url = "https://sc.chinaz.com/tupian/index.html"#网站地址
else:
url = "https://sc.chinaz.com/tupian/index_%s.html" %i
res = requests.get(url)
res.encoding = res.apparent_encoding# 自适应字符编码设置
三、用正则表达式提取面每个页面图片对应的详情页的地址
获取图片地址和图片名字
res_url_i=re.findall('<img src2="(.*?)" alt=".*?">',res.text)
res_url_name = re.findall('<img src2=".*?" alt="(.*?)">',res.text)
四、我们在压缩下载
for res_url_i1, res_url_name1 in zip(res_url_i, res_url_name):
res_url_i = "https:" + res_url_i1
image_url = requests.get(res_url_i)
f = open("./111/%s.jpg"%res_url_name1,"wb")
print("%s.jpg" % res_url_name1 + "下载成功!!!")
f.write(image_url.content)
f.close()
完整代码如下:
import requests
import re
# 循环爬取前2页的页面
for i in range(1,2):
url = "https://sc.chinaz.com/tupian/index.html" # 网站地址
if i ==1:
url = "https://sc.chinaz.com/tupian/index.html"#网站地址
else:
url = "https://sc.chinaz.com/tupian/index_%s.html" %i
# #获取页面
res = requests.get(url)
res.encoding = res.apparent_encoding# 自适应字符编码设置
# 提取页面中每个图片对应的详情页的地址 正则 列表
res_url_i=re.findall('<img src2="(.*?)" alt=".*?">',res.text)
res_url_name = re.findall('<img src2=".*?" alt="(.*?)">',res.text)
for res_url_i1, res_url_name1 in zip(res_url_i, res_url_name):
res_url_i = "https:" + res_url_i1
image_url = requests.get(res_url_i)
f = open("./111/%s.jpg"%res_url_name1,"wb")
print("%s.jpg" % res_url_name1 + "下载成功!!!")
f.write(image_url.content)
f.close()
提示:
每个网页地址不一样,正则表达式也不一样,文件操作地址也不一样,我的仅供参考,不要完成相信
python 爬站长素材网页图片的更多相关文章
- python爬取基础网页图片
python基础爬虫总结 1.爬取信息原理 与浏览器客户端类似,向网站的服务器发送一个请求,该请求一般是url,也就是网址.之后服务器响应一个html页面给客户端,当然也有其他数据类型的信息,这些就是 ...
- python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
- Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址 通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
- 使用python爬取P站图片
刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我 ...
- Python爬取养眼图片
1.准备 各位绅士们,你可能会觉得疫情在家无聊,那么现在我们的Python语言可以满足你们的需求.项目需要的工具(1)Python3(2)requests库requests库可以通过代码pip ins ...
- python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
- Python爬取全站妹子图片,差点硬盘走火了!
在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析 首先打开妹子图的官网(m ...
- 用python爬取全网妹子图片【附源码笔记】
这是晚上没事无聊写的python爬虫小程序,专门爬取妹子图的,养眼用的,嘻嘻!身为程序狗只会这个了! 废话不多说,代码附上,仅供参考学习! """ 功能:爬取妹子图全网妹 ...
- python爬取动态网页数据,详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
随机推荐
- 关于aws cli命令的exit/return code分析
最近总是收到一个备份脚本的失败邮件,脚本是之前同事写的,没有加入任何有调试信息,及有用的日志 于是去分析 ,脚本中有一条 aws s3 sync $srclocal $dsts3 命令,然后根据这条 ...
- PHP全栈开发(四): HTML 学习(1.基础标签+表格标签)
简单的学习一下HTML 学习HTML采用在www.runoob.com上学习的方法. 而且该网站还提供在线编辑器. 然后HTML编辑器使用Notepad++ 记得上Emmet的官网http://emm ...
- C++ 栈和典型迷宫问题
C++ 栈和迷宫问题 1. 前言 栈是一种受限的数据结构,要求在存储数据时遵循先进后出(Last In First Out)的原则.可以把栈看成只有一个口子的桶子,进和出都是走的这个口子(也称为栈顶) ...
- uni-app 如何优雅的使用权限认证并对本地文件上下起手
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1.起因 最近有一个需求,需要使用自定义插件,来对接硬件功能,需要配合对手机的权限进行判断和提示,并在对接后对本地文件进行操作,这里给大家 ...
- 2022.3.12 提高A组总结&反思
今天有点上头了 T1:开场秒,大水题,一眼莫队了,最后没打 T2:开场以为是费用流,后来发现费用流做不了,在做T3的时候突然发现可以状压,也没打 T3:这道题给我极大的亲切感,导致我一个上午硬钢这道题 ...
- Docker | redis集群部署实战
前面已经简单熟悉过redis的下载安装使用,今天接着部署redis集群(cluster),简单体会一下redis集群的高可用特性. 环境准备 Redis是C语言开发,安装Redis需要先将Redis的 ...
- Java获取/resources目录下的资源文件方法
Web项目开发中,经常会有一些静态资源,被放置在resources目录下,随项目打包在一起,代码中要使用的时候,通过文件读取的方式,加载并使用: 今天总结整理了九种方式获取resources目录下文件 ...
- springboot整合mybatisplus遇到的错误
完全跟着mybatis_plus官网的案例一步一步来的,但是到junit的时候突然报错 Internal Error occurred. org.junit.platform.commons.JUni ...
- @confirguration(proxyBeanMethods = false)的作用,如何选择Full模式和Lite模式
@Configuration(proxyBeanMethods = false) //告诉SpringBoot这是一个配置类 == 配置文件 public class MyConfig { @Bean ...
- 「浙江理工大学ACM入队200题系列」问题 B: 零基础学C/C++12——求平均值
本题是浙江理工大学ACM入队200题第二套中的B题 我们先来看一下这题的题面. 由于是比较靠前的题目,这里插一句.各位新ACMer朋友们,请一定要养成仔细耐心看题的习惯,尤其是要利用好输入和输出样例. ...