无比强大！Python抓取cssmoban站点的模版并下载

Python实现抓取http://www.cssmoban.com/cssthemes站点的模版并下载

实现代码

# -*- coding: utf-8 -*-

import urlparse

import urllib2

import re

import os

import os.path

URL='http://www.cssmoban.com/cssthemes'

#全局超时设置

urllib2.socket.setdefaulttimeout(500)

#依据url获取内容

def getUrlContent(url):

    response = urllib2.urlopen(url)

    html = response.read();

    return html

#获取html中的a标签。且格式是<a target="_blank" href="/showcase/*">的

def getAllUrl(html):

    return re.findall('<a[\\s]+href="/cssthemes/\d+\.shtml">.*?

\/a>',html)

#获取下载文件的标题

def getDownTitle(html):

    return re.findall('\<h1>(.*?

)\</h1>',html)

#获取文件下载的url

def getDownUrl(html):

    return re.findall('<a.*?class="button btn-down".*?

\/a>',html)

#获取下一页的url

def getNextUrl(html):

    return re.findall('<a.*?

下一页</a>',html)

#下载文件

def download(title,url):

    result = urllib2.urlopen(url).read()

    if os.path.exists("template/")==False:

        os.makedirs("template/")

    newname=("template/"+title.decode('utf-8'))

    newname=newname+'.'+url[url.rfind('.')+1:len(url)]

    open(newname, "wb").write(result)

#记录日志

def i(msg):

    fileobj=open('info.log','a')

    fileobj.write(msg+'\n')

    fileobj.close();

    print msg

#记录错误日志

def e(msg):

    fileobj=open('error.log','a')

    fileobj.write(msg+'\n')

    fileobj.close();

    print msg

if __name__ == '__main__':

    #print getDownUrl('<a href="http://down.cssmoban.com/cssthemes1/cctp_17_jeans.zip" target="_blank" class="button btn-down" title="免费下载"><i class="icon-down icon-white"></i><i class="icon-white icon-down-transiton"></i>免费下载</a>')

    html= getUrlContent(URL)

    i('開始下载：%s' %(URL))

    while True:

        lista= getAllUrl(html);

        #print lista;

        nextPage=getNextUrl(html)

        #print nextPage[0]

        nextUrl=''

        #i('下一页%s'%(nextPage))

        if len(nextPage)<=0:

            e('地址：%s。未找到下一页，程序退出' %(nextPage))

            break;

        nextUrl=nextPage[0]

        nextUrl=URL+'/'+nextUrl[nextUrl.index('href="')+6:nextUrl.index('" target')]

        #print nextPage

        for a in lista:

            downGotoUrl=''

            try:

                #print a.decode('utf-8')

                downGotoUrl=(URL+''+a[a.index('href="')+6:a.index('">')])

                downGotoUrl=downGotoUrl.replace(URL,'http://www.cssmoban.com')

                #print downGotoUrl

                downHtml=getUrlContent(downGotoUrl)

                #print downHtml

                downTitleList= getDownTitle(downHtml)

                downTitle=''

                if len(downTitleList)>0:

                    downTitle=downTitleList[0]

                #print downTitle

                downUrlList= getDownUrl(downHtml)

                downUrl=''

                if len(downUrlList)>0:

                    downUrl=downUrlList[0]

                downUrl= downUrl[downUrl.index('href="')+6:downUrl.index('" target')]

                #print downUrl

                i('開始下载：%s,文件名称：%s' %(downUrl,downTitle))

                download(downTitle,downUrl)

                i('%s下载完毕。保存文件名称：%s' %(downUrl,downTitle))

            except Exception,e:

                e('地址：%s下载失败，失败信息：' %(downGotoUrl))

                e(str(e))

        i('-----------------------------------------')

        i('运行下一页：%s' %(nextUrl))

        html= getUrlContent(nextUrl)

无比强大！Python抓取cssmoban站点的模版并下载的更多相关文章

无比强大！Python抓取cssmoban网站的模版并下载
Python实现抓取http://www.cssmoban.com/cssthemes网站的模版并下载实现代码 # -*- coding: utf-8 -*- import urlparse imp ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

随机推荐

win_tc使用感受
上大学的时候一直在使用win_tc就因为使用方便,今天准备用这个工具编辑一个函数,就特意下载了一个. 没想到直接出来一个bug. sizeof(char*)结果竟然是2. 果断接卸,误人子弟啊.
CF1025B Weakened Common Divisor【数论/GCD/思维】
#include<cstdio> #include<string> #include<cstdlib> #include<cmath> #include ...
scrapy抓取拉勾网职位信息（三）——爬虫rules内容编写
在上篇中,分析了拉勾网需要跟进的页面url,本篇开始进行代码编写. 在编写代码前,需要对scrapy的数据流走向有一个大致的认识,如果不是很清楚的话建议先看下:scrapy数据流本篇目标:让拉勾网爬 ...
【Shell】一些比较有用、常用的shell命令
最近帮着老大做一些服务器上的日志处理任务,小弟之前只是稍微会用点Linux,但是一些高级的命令基本不会,经过一番折腾,总结了几个自认为比较有用的命令,之后学到更多的再来补充. 一.文本处理:awk 二 ...
桌面笔记工具KeepNote
桌面笔记工具KeepNote 在渗透测试过程中,安全人员经常需要记录各种数据,如输出结果.运行截图.测试心得.这类信息格式多样,可能是图片.文字.文件等.为了便于管理这些内容,Kali Linux ...
[Lydsy1704月赛] 最小公倍佩尔数
4833: [Lydsy1704月赛]最小公倍佩尔数 Time Limit: 8 Sec Memory Limit: 128 MBSubmit: 202 Solved: 99[Submit][St ...
BZOJ 2705 [SDOI2012]Longge的问题（欧拉函数）
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=2705 [题目大意] 求出∑gcd(i,N)(1<=i<=N) [题解] $ ...
【高斯消元解xor方程】BZOJ1923-[Sdoi2010]外星千足虫
[题目大意] 有n个数或为奇数或为偶数,现在进行m次操作,每次取出部分求和,告诉你这几次操作选取的数和它们和的奇偶性.如果通过这m次操作能得到所有数的奇偶性,则输出进行到第n次时即可求出答案:否则输出 ...
[PKUSC2018]最大前缀和
[PKUSC2018]最大前缀和题目大意: 有$n(n\le20)$个数$A_i(|A_i|\le10^9)$.求这$n$个数在随机打乱后最大前缀和的期望值与$n!$的积在模\(99 ...
[NOIp2016提高组]蚯蚓
题目大意: 给你n个不同长度蚯蚓,每秒从里面取出最长的砍下u/v变成两只,又把剩下的加长q. 问你在m之前的t,2t,3t...的时间上,砍的蚯蚓长度, 以及m秒后剩下所有的蚯蚓长度. 思路: 很容易 ...

无比强大！Python抓取cssmoban站点的模版并下载

无比强大！Python抓取cssmoban站点的模版并下载的更多相关文章

随机推荐

热门专题