使用python编写一个壁纸网站的简单爬虫

目标网站：http://www.netbian.com/

目的：实现对壁纸各分类的第一页壁纸的获取

一：分析网站，编写代码：

（ps：源代码在文章的最后）

1.获取网站目录部分的一大段代码，下一步再进行仔细匹配网址与标题.

 #coding=gbk

 #目标：下载各目录的壁纸（大图）

 __author__ = 'CQC'

 import urllib2

 import urllib

 import re

 import os

 #创建壁纸下载文件夹

 path = 'd:\\彼岸壁纸'

 if not os.path.isdir(path):

     os.makedirs(path)

 #目录

 big_title = []

 #首页打开

 url = 'http://www.netbian.com/'

 headers = {'User-agent' : 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'}

 request = urllib2.Request(url,headers = headers)

 response = urllib2.urlopen(request)

 #首页目录源代码获取

 pat_menu = re.compile('<ul class="menu">(.*?)</a></div>',re.S)

 code_menu = re.search(pat_menu,response.read())

如图：

2.进行分类的标题与链接的匹配。

 #目录标题

 pat_menu_title = re.compile('<a href=".*?" title="(.*?)">',re.S)

 menu_title = re.findall(pat_menu_title,code_menu.group(1))

 for a_item in menu_title:

     big_title.append(a_item)

     print a_item

 #目录链接

 pat_menu_link = re.compile('<a href="(.*?)" title=".*?">',re.S)

 menu_link = re.findall(pat_menu_link,code_menu.group(1))

如下图所示：

3.从爬取到的目录进入，获得该目录下所有壁纸的标题与链接.

 #进入目录

 j = 0

 for b_item in menu_link:

     url_menu = 'http://www.netbian.com/' + b_item

     request_son = urllib2.Request(url_menu,headers = headers)

     response_son = urllib2.urlopen(request_son)

     #获得每个目录的图片标题，链接

     #获得子目录标题

     title_son = []

     pat_title_son = re.compile('<img src=".*?" data-src=".*?" alt="(.*?)"/>',re.S)

     res_title = re.findall(pat_title_son,response_son.read())

     for c_item in res_title:

         title_son.append(c_item)

     #筛选出子目录代码

     pat_code_son = re.compile('<ul>(.*?)</ul>',re.S)

     middle_pattern = urllib2.Request(url_menu,headers = headers)

     middle_response = urllib2.urlopen(middle_pattern)

     res_code_son = re.search(pat_code_son,middle_response.read())

     #获得子目录链接，合成大图网页链接

     pat_link_son = re.compile('<li><a href="(.*?)" target="_blank"><img',re.S)

     res_link = re.findall(pat_link_son,res_code_son.group(1))

如下图所示：

4.根据上一步爬取到的链接，合成真正的1080p壁纸链接.

因为我们从上图标题点进去后是这样：

还需要点击下载按钮才能打开1080p壁纸的链接。为了方便，我们直接合成1080p壁纸的链接.

例如： http://www.netbian.com/desk/9805.htm

对应的1080p网址：http://www.netbian.com/desk/9805-1920x1080.htm

代码：

     i = 0

     #显示进度

     print big_title[j]

     for d_item in res_link:

         #获得大图下载链接

         if d_item == 'http://www.mmmwu.com/':

             pass

         else:

             new_link = 'http://www.netbian.com/' + d_item[:-4] + '-1920x1080.htm'

             print new_link

（ps：由于‘美女’分类中的第一个标题链接到了其他网站，为了简单一点，所以我直接跳过了）

5.进入1080p壁纸链接，下载壁纸.

 request_real = urllib2.Request(new_link,headers = headers)

             response_real = urllib2.urlopen(request_real)

             pat_real = re.compile('<img src="(.*?)" alt=".*?"/></td></tr>')

             link_real = re.search(pat_real,response_real.read())

             #跳过vip壁纸

             if link_real:

                 fina_link = link_real.group(1)

                 #创建下载目录

                 path_final = 'd:\\彼岸壁纸\\' + big_title[j] + '\\'

                 if not os.path.isdir(path_final):

                     os.makedirs(path_final)

                 path_pic = path_final + title_son[i] + '.jpg'

                 f = open(path_pic,'wb')

                 data = urllib.urlopen(fina_link)

                 f.write(data.read())

                 f.close()

                 if not data:

                     print "Download Failed."

             i += 1

     print 'One menu download OK.'

     j += 1

6.下载完成.

二、所有的源代码。

 #coding=gbk

 #目标：下载各目录的壁纸（大图）

 __author__ = 'CQC'

 import urllib2

 import urllib

 import re

 import os

 #创建壁纸下载文件夹

 path = 'd:\\彼岸壁纸'

 if not os.path.isdir(path):

     os.makedirs(path)

 #目录

 big_title = []

 #首页打开

 url = 'http://www.netbian.com/'

 headers = {'User-agent' : 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'}

 request = urllib2.Request(url,headers = headers)

 response = urllib2.urlopen(request)

 #首页目录源代码获取

 pat_menu = re.compile('<ul class="menu">(.*?)</a></div>',re.S)

 code_menu = re.search(pat_menu,response.read())

 #目录标题

 pat_menu_title = re.compile('<a href=".*?" title="(.*?)">',re.S)

 menu_title = re.findall(pat_menu_title,code_menu.group(1))

 for a_item in menu_title:

     big_title.append(a_item)

     print a_item

 #目录链接

 pat_menu_link = re.compile('<a href="(.*?)" title=".*?">',re.S)

 menu_link = re.findall(pat_menu_link,code_menu.group(1))

 #进入目录

 j = 0

 for b_item in menu_link:

     url_menu = 'http://www.netbian.com/' + b_item

     request_son = urllib2.Request(url_menu,headers = headers)

     response_son = urllib2.urlopen(request_son)

     #获得每个目录的图片标题，链接

     #获得子目录标题

     title_son = []

     pat_title_son = re.compile('<img src=".*?" data-src=".*?" alt="(.*?)"/>',re.S)

     res_title = re.findall(pat_title_son,response_son.read())

     for c_item in res_title:

         title_son.append(c_item)

     #筛选出子目录代码

     pat_code_son = re.compile('<ul>(.*?)</ul>',re.S)

     middle_pattern = urllib2.Request(url_menu,headers = headers)

     middle_response = urllib2.urlopen(middle_pattern)

     res_code_son = re.search(pat_code_son,middle_response.read())

     #获得子目录链接，合成大图网页链接

     pat_link_son = re.compile('<li><a href="(.*?)" target="_blank"><img',re.S)

     res_link = re.findall(pat_link_son,res_code_son.group(1))

     i = 0

     #显示进度

     print big_title[j]

     for d_item in res_link:

         #获得大图下载链接

         if d_item == 'http://www.mmmwu.com/':

             pass

         else:

             new_link = 'http://www.netbian.com/' + d_item[:-4] + '-1920x1080.htm'

             print new_link

             request_real = urllib2.Request(new_link,headers = headers)

             response_real = urllib2.urlopen(request_real)

             pat_real = re.compile('<img src="(.*?)" alt=".*?"/></td></tr>')

             link_real = re.search(pat_real,response_real.read())

             #跳过vip壁纸

             if link_real:

                 fina_link = link_real.group(1)

                 #创建下载目录

                 path_final = 'd:\\彼岸壁纸\\' + big_title[j] + '\\'

                 if not os.path.isdir(path_final):

                     os.makedirs(path_final)

                 path_pic = path_final + title_son[i] + '.jpg'

                 f = open(path_pic,'wb')

                 data = urllib.urlopen(fina_link)

                 f.write(data.read())

                 f.close()

                 if not data:

                     print "Download Failed."

             i += 1

     print 'One menu download OK.'

     j += 1

使用python编写一个壁纸网站的简单爬虫的更多相关文章

用Python编写一个简单的Http Server
用Python编写一个简单的Http Server Python内置了支持HTTP协议的模块,我们可以用来开发单机版功能较少的Web服务器.Python支持该功能的实现模块是BaseFTTPServe ...
使用 python 编写一个授权登录验证的模块
使用 python 编写一个授权登录验证的模块我们编写的思路: 1.登录的逻辑:如果用户名和密码正确,就返回 token . 2.生成 token 的逻辑,根据用户名,随机数,当前时间 + 2 小时 ...
为Python编写一个简单的C语言扩展模块
最近在看pytorh方面的东西,不得不承认现在这个东西比较火,有些小好奇,下载了代码发现其中计算部分基本都是C++写的,这真是要我对这个所谓Python语音编写的框架或者说是库感觉到一丢丢的小失落,细 ...
[初学Python]编写一个最简单判断SQL注入的检测工具
0x01 背景 15年那会,几乎可以说是渗透最火的一年,各种教程各种文章,本人也是有幸在那几年学到了一些皮毛,中间因学业问题将其荒废至今.当初最早学的便是,and 1=1 和 and 1=2 这最简单 ...
如何用Python编写一个聊天室
一.课程介绍 1.简介本次项目课是实现简单聊天室程序的服务器端和客户端. 2.知识点服务器端涉及到asyncore.asynchat和socket这几个模块,客户端用到了telnetlib.wx. ...
使用python编写量子线路打印的简单项目，并使用Sphinx自动化生成API文档
技术背景该文章一方面从量子线路的打印着手,介绍了一个简单的python量子线路工程.同时基于这个简单的小工程,我们顺带的介绍了python的API文档自动化生成工具Sphinx的基本使用方法. 量子 ...
day-1 用python编写一个简易的FTP服务器
从某宝上购买了一份<Python神经网络深度学习>课程,按照视频教程,用python语言,写了一个简易的FTP服务端和客户端程序,以前也用C++写过聊天程序,编程思路差不多,但是pytho ...
Python 编写一个有道翻译的 workflow 教程
最近使用有道翻译的 workflow 总是翻译不了,可能是 appKey 失效了或者超过调用上限,所以打算自己实现一个. 创建 workflow 打开 Alfred3 的 Preferences,选择 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...

随机推荐

Java EE : 一、图解Http协议
目录 Java EE : 一.图解Http协议 Java EE : 二.图解 Cookie(小甜饼) Java EE : 三.图解Session(会话) 概述一.技术基石及概述二.深入理解技术基石 ...
Datafactory必须注意事项
网站优化之PHPCMS如何开启伪静态
做为一名网站优化方面的工作,那么选择CMS系统的时候,有良好的网站优化功能就是一个好的CMS的标准之一,而系统是否支持伪静态,则是URL优化的工作之一,而PHPCMS是一款网站优化方面做得比较成功的C ...
iOS生成静态库方法
在iOS的开发过程中,我们常常用到第三方的库.比如支付.地图.广告等. 那么,如何制作自己的库文件呢? 如何将自己写的功能类编译成库文件,分发给其他人来使用呢并做成通用库里? iOS开发一年多来没有制 ...
virtual_login
from selenium import webdriverimport timedriver = webdriver.Chrome()driver.set_window_position(30, 4 ...
Lyft押重注于苹果编程语言Swift
Lyft押重注于苹果编程语言Swift 1年后获得丰厚回报BI中文站 8月22日报道一年多以前,打车应用Lyft做出重大决定,决心押重注于苹果开发的编程语言Swift,用这种编程语言重写其所有iPh ...
金山软件wps2012-2013通杀0day
#!/usr/bin/python # Exploit Title: Kingsoft Office Writer v2012 8.1.0.3385 .wps Buffer Overflow Expl ...
Eclipse中怎么安装TestNG单元测试框架
在进行使用的eclipse的进行开发的代码中,必然就会需要进行单元测试,在单元测试的情况提供较多的框架单元测试,例如使用junit单元测试,而在国外进行开发较好的单元测试,提供了较好的测试的报告,ju ...
React Native 一个组件styles BUG
'use strict'; var React = require('react-native'); var { StyleSheet, PanResponder, View, Text } = Re ...
算法：寻找maximum subarray
<算法导论>一书中演示分治算法的第二个例子,第一个例子是递归排序,较为简单.寻找maximum subarray稍微复杂点. 题目是这样的:给定序列x = [1, -4, 4, 4, 5, ...

使用python编写一个壁纸网站的简单爬虫

使用python编写一个壁纸网站的简单爬虫的更多相关文章

随机推荐

热门专题