python爬虫-爬取你想要的小姐姐

一、准备

1. 原地址

2. 检查html发现，网页是有规则的分页, 最大图片的class为pic-large

二、代码

 import requests

 import os

 from bs4 import BeautifulSoup

 url = 'http://www.win4000.com/wallpaper_detail_157712.html'

 imgmkdir = 'D://Download//ghost_1//'

 # 获取网页url

 def getUrlList():

     imgUrlList = []

     for i in range(0, 10):

         imgUrl = ''

         url_split = url.split('.html')

         if not i == 0:

             imgUrl += url_split[0] + '_' + str(i) + '.html'

             # print(imgUrl)

             imgUrlList.append(imgUrl)

     return imgUrlList

 # 下载图片

 def downImg(imgUrl):

     try:

         if not os.path.exists(imgmkdir):

             os.mkdir(imgmkdir)

         if not os.path.exists(imgUrl):

             r = requests.get(imgUrl)

             r.raise_for_status()

             # 使用with语句可以不用自己手动关闭已经打开的文件流

             imgpath = imgmkdir + imgUrl.split('/')[-1]

             # 开始写文件, wb表示写二进制文件

             with open(imgpath, 'wb') as f:

                 f.write(r.content)

             print(imgUrl + '【爬取完成】')

         else:

             print(imgUrl.split('/')[-1] + '【文件已存在】')

     except Exception as e:

         print("爬取失败" + str(e))

 # 获取imgHtml标签

 def getcontent(soup):

     for i in soup.find_all('img', class_='pic-large'):

         imgsrc = i['src']

         if imgsrc.find('http') >= 0 or imgsrc.find('https') >= 0:

             # 下载图片

             downImg(imgsrc)

 # 根据url获取html源码

 def getHtmlByUrl(htmlUrl):

     htmlText = requests.get(htmlUrl).content

     # 使用beautifulSoup解析html

     soup = BeautifulSoup(htmlText, 'lxml')

     return soup

 def main():

     htmlUrlList = getUrlList()

     for url in htmlUrlList:

         htmltext = getHtmlByUrl(url)

         getcontent(htmltext)

 if __name__ == '__main__':

     main()

三、结果

四、总结

　　代码用比较笨的方法来获取，先试水

python爬虫-爬取你想要的小姐姐的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

FWT快速沃尔什变换例题
模板题传送门 #include<bits/stdc++.h> #define ll long long #define max(a,b) ((a)>(b)?(a):(b)) #de ...
Java RabbitMQ配置和使用，基于SpringBoot
package rabbitmq.demo; import com.rabbitmq.client.AMQP; import org.junit.Test; import org.junit.runn ...
Mysql中EXISTS关键字用法、总结
在做教务系统的时候,一个学生(alumni_info)有多个教育经历(alumni_education),使用的数据库是mysql,之前使用左链接查询的,发现数据量才只有几万条时,查询就很慢了,早上想 ...
mysql集群高可用架构
前言高可用架构对于互联网服务基本是标配,无论是应用服务还是数据库服务都需要做到高可用.对于一个系统而言,可能包含很多模块,比如前端应用,缓存,数据库,搜索,消息队列等,每个模块都需要做到高可用,才能 ...
Wamp 本地访问特别慢，原因在这
Wamp 本地访问特别慢.打开空的页面都要400ms,彻底疯了什么localhost改为127.0.0.1 什么清理日志缓存,都不好使, 重点在Xdebug,安装了Xdebug之后变慢 ...
胶囊网络 -- Capsule Networks
胶囊网络是 vector in vector out的结构,最后对每个不同的类别,输出不一个向量,向量的模长表示属于该类别的概率. 例如,在数字识别中,两个数字虽然重叠在一起,Capsule中的两个向 ...
CMU Database Systems - Query Processing
Query Model Query处理有三种方式, 首先是Iterator model,这是最基本的model,又称为volcano,pipeline模式他是top-down的模式,通过next函数 ...
Data Governance Solution
如何有效地进行数据治理 | 人人都是产品经理http://www.woshipm.com/data-analysis/746223.html ##普元元数据管理(MetaCube)产品-白皮书.doc ...
PLSQL流函数代码 540页【我】
540页流函数代码 -- Create table create table STOCKTABLE ( TICKER ), TRADE_DATE DATE, OPEN_PRICE NUMBER, C ...
IDEA子项目的相互依赖
A项目依赖B项目一.B项目打包,执行install 这一步其实就是把你的项目打包到本地仓库,你可以在本地仓库看到相应的jar包二.在A项目的pom.xml引入依赖可以了当B项目修改后,需要重新打 ...

python爬虫-爬取你想要的小姐姐

python爬虫-爬取你想要的小姐姐的更多相关文章

随机推荐

热门专题