python爬虫-爬取你想要的小姐姐

一、准备

1. 原地址

2. 检查html发现，网页是有规则的分页, 最大图片的class为pic-large

二、代码

 import requests

 import os

 from bs4 import BeautifulSoup

 url = 'http://www.win4000.com/wallpaper_detail_157712.html'

 imgmkdir = 'D://Download//ghost_1//'

 # 获取网页url

 def getUrlList():

     imgUrlList = []

     for i in range(0, 10):

         imgUrl = ''

         url_split = url.split('.html')

         if not i == 0:

             imgUrl += url_split[0] + '_' + str(i) + '.html'

             # print(imgUrl)

             imgUrlList.append(imgUrl)

     return imgUrlList

 # 下载图片

 def downImg(imgUrl):

     try:

         if not os.path.exists(imgmkdir):

             os.mkdir(imgmkdir)

         if not os.path.exists(imgUrl):

             r = requests.get(imgUrl)

             r.raise_for_status()

             # 使用with语句可以不用自己手动关闭已经打开的文件流

             imgpath = imgmkdir + imgUrl.split('/')[-1]

             # 开始写文件, wb表示写二进制文件

             with open(imgpath, 'wb') as f:

                 f.write(r.content)

             print(imgUrl + '【爬取完成】')

         else:

             print(imgUrl.split('/')[-1] + '【文件已存在】')

     except Exception as e:

         print("爬取失败" + str(e))

 # 获取imgHtml标签

 def getcontent(soup):

     for i in soup.find_all('img', class_='pic-large'):

         imgsrc = i['src']

         if imgsrc.find('http') >= 0 or imgsrc.find('https') >= 0:

             # 下载图片

             downImg(imgsrc)

 # 根据url获取html源码

 def getHtmlByUrl(htmlUrl):

     htmlText = requests.get(htmlUrl).content

     # 使用beautifulSoup解析html

     soup = BeautifulSoup(htmlText, 'lxml')

     return soup

 def main():

     htmlUrlList = getUrlList()

     for url in htmlUrlList:

         htmltext = getHtmlByUrl(url)

         getcontent(htmltext)

 if __name__ == '__main__':

     main()

三、结果

四、总结

　　代码用比较笨的方法来获取，先试水

python爬虫-爬取你想要的小姐姐的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

性能测试学习第八天-----linux环境整合篇
select和C标签
<select name="cpcyModel.rwzj" id="cpcyModel_rwzj"> <option value=" ...
Ibatis自动解决sql注入机制
疑问1:为什么IBatis解决了大部分的sql注入?(实际上还有部分sql语句需要关心sql注入,比如like) 之前写Java web,一直使用IBatis,从来没有考虑过sql注入:最近写php( ...
sql server 自增列，值突然增大1000的情况
sql server 自增列,值突然增大1000的情况解决方法: 1 打开配置管理器2左面点击sql服务3右面右键点击SQL Server(MSSQLSERVER) 4点击启动参数5 在参数 ...
HttpWebRequest使用时发生阻塞的解决办法
HttpWebRequest使用如下: 第一种:使用Using 释放资源 /// <summary> /// Http Get请求返回数据 /// </summary> /// ...
CMU Database Systems - Query Optimization
查询优化应该是数据库领域最难的topic 当前查询优化,主要有两种思路, Rules-based,基于先验知识,用if-else把优化逻辑写死 Cost-based,试图去评估各个查询计划的cost, ...
linux cat 文件编码
test.log是utf-16的编码 cat test.log会报错但是我们可以cat的时候指定编码格式 iconv -f 文件编码 -t 终端编码 input.log iconv -f utf-1 ...
CentOS 安装抓包工具wireshark-tshark抓包工具
原文出处:razeen -> https://razeen.me/post/how-to-install-tshark-on-centos.html 准备在服务器上用tshark抓包,分析一下数 ...
blaze advisor模型部署工具
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
为什么要监控sql语句？如何监控？
01 为什么要监控sql语句? ① 因为程序大了以后,sql语句有可能被多个地方调用 .你不能确认当前时间是不是只执行了你需要的那条语句 . ② 有的持久层框架采用linq的语法来写sql , 程序中 ...

python爬虫-爬取你想要的小姐姐

python爬虫-爬取你想要的小姐姐的更多相关文章

随机推荐

热门专题