Python 爬取高清桌面壁纸

今天写了一个脚本用来爬取ZOL桌面壁纸网站的高清图片；

链接：http://desk.zol.com.cn/1920x1080/

本程序只爬了美女板块的图片，若要下载其他板块，只需修改程序中的”meinv“即可

代码如下：

#coding=utf-8

import urllib

import re

import time

class Spider:

    baseUrl='http://desk.zol.com.cn/'

    pic_index=0

    itemGroupPic=[]

    def __init__(self,page_count):

        time.sleep(1)

        url=self.baseUrl+"meinv/1920x1080/"

        for i in range(10, page_count):

            time.sleep(5)

            html=self.getHtml(url,i)

            getbi=self.getPageImageGroup(html)

            bizhi_url=self.getbizhiurlList(getbi)

    def getHtml(self,url,page_index):

        url=url+str(page_index)+".html"

        page = urllib.urlopen(url)

        html = page.read()

        return html

    def getPageImageGroup(self,html):

        reg=r'<a class="pic" href="/bizhi/.*?.html'

        imgre=re.compile(reg)

        imagelist=re.findall(imgre,html)

        return imagelist

    def getbizhiurlList(self,imagelist):

        for iurl in imagelist:

            reg=r'bizhi/.*?.html'

            imgre=re.compile(reg)

            itmeimageurl=re.findall(imgre,iurl)

            self.itemGroupPic.append(itmeimageurl)

    def GetCurrentUrlAndDownload(self,url):

        page = urllib.urlopen(url)

        html = page.read() #read()出来的文本和网页右键源代码有点出入，这里需要优化

        reg=r'<img id="bigImg" src="http://.*.jpg"'

        imgre=re.compile(reg)

        urllist=re.findall(imgre,html)

        for _u in urllist:

            reg1=r'http://.*.jpg'

            imgre1=re.compile(reg1)

            itmeimageurl=re.findall(imgre1,_u)

            print u'正在下载'+str(self.pic_index)+u'图片'

            #D:\PictureAvi目录要事先创建好

            urllib.urlretrieve(itmeimageurl[0],'D:\PictureAvi\%s.jpg' % self.pic_index)

            self.pic_index+=1

        #获取当前页面的url,next_html

        next_reg=r'<a id="pageNext" class="next" href=".*.html"'

        next_imgre=re.compile(next_reg)

        next_urllist=re.findall(next_imgre,html)

        if(len(next_urllist)==0):

            return ""

        #获取真正的next_html

        next_reg_child=r'bizhi.*?.html'

        next_imgre_child=re.compile(next_reg_child)

        real_url=re.findall(next_imgre_child,next_urllist[0])

        return real_url[0]

    def MatchUrl(self,imagelist):

        for imgurl in imagelist:

            url=self.baseUrl+imgurl[0]

            next_url=self.GetCurrentUrlAndDownload(url)

            #递归获取下一个url

            while(next_url != ''):

                _itme_next_url=self.baseUrl+next_url

                next_url=self.GetCurrentUrlAndDownload(_itme_next_url)

if __name__ == '__main__':

    spider = Spider(15)

    spider.MatchUrl(spider.itemGroupPic)

    print u'结束下载'

运行结果如下：

运行环境是py2.7，原理很简单，并没有用到类似scrapy这样的框架，也没用什么动态获取

1.通过urllib获取网页源代码

2.找到规律，通过正则表达式找到url

3.用urllib下载到本地文件

未完待续。。。。。

Python 爬取高清桌面壁纸的更多相关文章

Python 爬取 "王者荣耀.英雄壁纸" 过程中的矛和盾
1. 前言学习爬虫,最好的方式就是自己编写爬虫程序. 爬取目标网站上的数据,理论上讲是简单的,无非就是分析页面中的资源链接.然后下载.最后保存. 但是在实施过程却会遇到一些阻碍. 很多网站为了阻止爬 ...
python3爬取高清壁纸(1)
这次爬取的目标是:美桌网首页 > 桌面壁纸 > 卡通动漫类别下的壁纸. 我们先随机选取一个专辑来爬(http://www.win4000.com/wallpaper_detail_545 ...
python3爬取高清壁纸(2)
上次只是爬取一个专辑的图片,这次要爬取一整个页面的所有专辑的图片. 在上次的代码的基础上进行修改就行了,从专辑的索引页面开始,爬取该页面上所有的专辑的链接,再套用上次的代码就行了. 若要爬取多个页面只 ...
python爬取高匿代理IP（再也不用担心会进小黑屋了）
为什么要用代理IP 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人 ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

随机推荐

在github上怎样克隆vue项目及运行
长时间不做vue项目,今天看vue项目运行时有些指令忘记了,在这里写下相关指令 .克隆已有项目,一般情况项目中的README.md写的是项目运行步骤,一般项目的运行如下克隆项目 git clone ...
MySQL数据库CRUD命令用法
数据库CRUD操作即添加(Create).读取(Read).更新(Update)和删除(Delete). 1. 添加操作也称插入操作,使用Insert语句,Insert语句可以用于几种情况: 插入完整 ...
Loadrunner学习---脚本编写(1)
Loadrunner学习---脚本编写(1) 中午看了两集<奋斗>发现越看越想看,但是想到好不容易没上班,在家还是赶紧学习下LR的知识吧.下面这个网页的文章原来也是看过的,但发现没几天就忘 ...
新一代云WAF：防御能力智能化，用户享有规则“自主权”
近日,在国际权威分析机构Frost & Sullivan发布的<2017年亚太区Web应用防火墙市场报告>中,阿里云以市场占有率45.8%的绝对优势连续两年领跑大中华区云WAF市场 ...
Django项目：CMDB(服务器硬件资产自动采集系统)--11--07CMDB文件模式测试采集硬件数据
#settings.py # ————————01CMDB获取服务器基本信息———————— import os BASEDIR = os.path.dirname(os.path.dirname(o ...
2019/10/17 CSP模拟总结
T1 补票 Ticket 没什么好说的,不讲了 T2 删数字 Number 很后悔的是其实考场上不仅想出了正解的方程,甚至连优化都想到了,却因为码力不足只打了\(O(n^2)\)暴力,甚至还因为细节挂 ...
Linux 启动出现 busybox vx.x.xx built-in shell 的问题
可能是磁盘检测错误,尤其出现在未安全关机或者磁盘损坏之后. 解决办法: 1.在选择启动项目时,选中第一项,如: ubuntu 8.04kernl.2.6.22-16-generic 2.按E 进入编辑 ...
quatz调度-手动终止线程(1) 创建触发器，线程执行完毕后添加到cleaner list
import org.quartz.JobDetail; import org.quartz.Scheduler; import org.quartz.SchedulerException;impor ...
java笔试之计算n x m的棋盘格子
请编写一个函数(允许增加子函数),计算n x m的棋盘格子(n为横向的格子数,m为竖向的格子数)沿着各自边缘线从左上角走到右下角,总共有多少种走法,要求不能走回头路,即:只能往右和往下走,不能往左和往 ...
Spring容器管理各种文件
1. 导入文件 <import resource="applicationContext-dataSource.xml" /> 2. 引用资源配置文件 <cont ...

Python 爬取高清桌面壁纸

Python 爬取高清桌面壁纸的更多相关文章

随机推荐

热门专题