一、准备

1. 原地址

2. 检查html发现,网页是有规则的分页, 最大图片的class为pic-large

二、代码

 import requests
import os
from bs4 import BeautifulSoup url = 'http://www.win4000.com/wallpaper_detail_157712.html'
imgmkdir = 'D://Download//ghost_1//' # 获取网页url
def getUrlList():
imgUrlList = []
for i in range(0, 10):
imgUrl = ''
url_split = url.split('.html')
if not i == 0:
imgUrl += url_split[0] + '_' + str(i) + '.html'
# print(imgUrl)
imgUrlList.append(imgUrl) return imgUrlList # 下载图片
def downImg(imgUrl):
try:
if not os.path.exists(imgmkdir):
os.mkdir(imgmkdir)
if not os.path.exists(imgUrl):
r = requests.get(imgUrl)
r.raise_for_status()
# 使用with语句可以不用自己手动关闭已经打开的文件流
imgpath = imgmkdir + imgUrl.split('/')[-1]
# 开始写文件, wb表示写二进制文件
with open(imgpath, 'wb') as f:
f.write(r.content)
print(imgUrl + '【爬取完成】')
else:
print(imgUrl.split('/')[-1] + '【文件已存在】')
except Exception as e:
print("爬取失败" + str(e)) # 获取imgHtml标签
def getcontent(soup):
for i in soup.find_all('img', class_='pic-large'):
imgsrc = i['src']
if imgsrc.find('http') >= 0 or imgsrc.find('https') >= 0:
# 下载图片
downImg(imgsrc) # 根据url获取html源码
def getHtmlByUrl(htmlUrl):
htmlText = requests.get(htmlUrl).content
# 使用beautifulSoup解析html
soup = BeautifulSoup(htmlText, 'lxml') return soup def main():
htmlUrlList = getUrlList()
for url in htmlUrlList:
htmltext = getHtmlByUrl(url)
getcontent(htmltext) if __name__ == '__main__':
main()

三、结果

四、总结

  代码用比较笨的方法来获取,先试水

python爬虫-爬取你想要的小姐姐的更多相关文章

  1. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

  2. Python爬虫爬取全书网小说,程序源码+程序详细分析

    Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...

  3. python爬虫—爬取英文名以及正则表达式的介绍

    python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

  4. 一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: # -*- cod ...

  5. Python爬虫 - 爬取百度html代码前200行

    Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

  6. 用Python爬虫爬取广州大学教务系统的成绩(内网访问)

    用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...

  7. Python爬虫|爬取喜马拉雅音频

    "GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

  8. python爬虫爬取内容中,-xa0,-u3000的含义

    python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

  9. python爬虫-爬取百度图片

    python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

  1. luogu_P3313 [SDOI2014]旅行

    传送门 Solution 第二次学习可持久化线段树 打了一道裸题来练习一下-- 对于每个宗教都可以开一个主席树 基础操作 树剖lca Code  #include<bits/stdc++.h&g ...

  2. vue-vuetify-electron 项目,源码在GitHub 希望对大家有所帮助

    点击进入 github项目地址

  3. bugku web所有writeup_超详细讲解_持续更新

    首先说一下我的主用工具,在windows下,主要是用这些,用到其他特定的工具会在题里说. 0.浏览器:火狐,配合Max hackbar插件 (这个是免费的) 1.抓包改包:burpsuite.http ...

  4. html同行两个div浮动后下一个div怎么换行的问题

    传送门:https://blog.csdn.net/asdfg6541/article/details/78514535

  5. PLSQL命令行创建用户 以及 JDBC简单操作

    目录 PLSQL Developer命令行创建用户以及表 课堂要点 ​ JDBC 主外键约束 踩坑之路 设置ORACLE_HOME环境变量 PLSQL Developer命令行创建用户以及表 打开Co ...

  6. NoSql数据库Redis系列(2)——Redis数据类型

    一.设计 Redis Key (一).分段设计法 使用冒号把 key 中要表达的多种含义分开表示,步骤如下: 1.把表名转化为 key 前缀 2.主键名(或其他常用于搜索的字段) 3.主键值 4.要存 ...

  7. Open vSwitch系列实验(一):Open vSwitch使用案例扩展实验

    一.实验目的 通过python脚本调用OpenvSwitch命令: 学习Mininet基于python脚本创建拓扑的实现: 进一步深度使用“ovs-vsctl”命令直接控制Open vSwitch. ...

  8. mysql innodb与myisam存储文件的区别

    myisam: .frm: 存储表定义 .myd(MYData):存储数据 .MYI(MYindex):存储引擎 innodb: .frm:存储表定义 .idb:存储数据和索引,在同一个文件中

  9. 文献阅读 | Molecular Architecture of the Mouse Nervous System

    文章亮点: 按level来管理和分析数据,文章有不同stage,每个stage有不同subtype,这应该是一个真tree,而不只是一个进化树,文章里出现最多的进化树把所有的stage都整合了. 空间 ...

  10. Java hashCode与equals学习

    1.关于Object类的equals方法的特点 a) 自反性: x.equals(x) 应该返回true b) 对称性: x.equals(y)为true,那么y.equals(x) 也为true c ...