打算利用业余时间好好研究Python的web框架--web.py,深入剖析其实现原理,体会web.py精巧之美。但在研究源码的基础上至少得会用web.py。思前想后,没有好的Idea,于是打算开发一个csdn博客专栏下载器,界面不是很好看,还过得去吧。

效果图如下:

为了简单,下载以html格式保存。

下载我自己的博客专栏,目录列表

主界面html文件非常简单,如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>CSDN 博客专栏下载器</title>
<link rel="stylesheet" type="text/css" href="/static/main.css"/>
<script type="text/javascript" src="static/main.js"></script>
</head> <body>
<input type="text" class="name" name="csdnname" id="csdnid"/><br/>
<button type="button" class="btn" onclick="category()">获取专栏</button>
<div id="categorylist">
</div>
<div id="download">
</div>
<div id="status">
</div>
<div id="footer">
</div>
</body>
</html>

获取后端数据使用Ajax,没有用封装好的库,所以看起来很简洁。

function ajax(requesturl,handler){
var xmlhttp;
if (window.XMLHttpRequest){
xmlhttp=new XMLHttpRequest();
}
else{
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function(){
if (xmlhttp.readyState==4 && xmlhttp.status==200){
handler(xmlhttp.responseText);
}
}
xmlhttp.open("GET",requesturl,true);
xmlhttp.send();
} function category(){
var name=document.getElementById('csdnid').value;
document.getElementById('categorylist').innerHTML=""
if (name==""){
alert("用户名不可以为空");
}
else{
ajax('category'+'?name='+name,function(content){
document.getElementById('categorylist').innerHTML=content;
});
}
} function down(){
var box=document.getElementsByName('check');
var atag=new Array();
for (var i=0; i<box.length; i++) {
if(box[i].checked){
atag.push(box[i].value);
}
}
var astring=atag.join('*');
ajax('down'+'?urls='+astring,function(content){
if(content!=""){
document.getElementById('download').innerHTML=content;
}
else{
document.getElementById('download').innerHTML="正在下载";
}
});
}

ajax函数,一个参数是请求url,另一个是请求成功回调函数。在函数里创建一个XMLHttpRequest对象,发送请求给url,并调用回调函数。

category函数,主要是获取csdn用户ID,并发送给ajax请求获取专栏信息,成功后显示。

down函数,获取选中的复选框,将选中专栏url拼接后发送ajax请求。

主文件,如下

#coding=utf-8
import web
import os
import urllib2
import cookielib
import re
import threading
import thread
import sys reload(sys)
sys.setdefaultencoding('utf8') urls = (
'/','index',
'/category(.*)','category',
'/down','down' )
render = web.template.render('templates/') #所有用到的正则表达式
contentMatch={
'category':re.compile(r"<div id=\"panel_Category\"(.*?)博(.*?)>(.*?)</div>", re.I|re.DOTALL), #专栏显示
'zlalink':re.compile(r"a(\s*)href(\s*)=(\"|')(.*?)(\3)(.*?)>(.*?)</a>",re.I|re.DOTALL), #各个专栏url
'blogalink': re.compile(r"<a(\s*)name(.*?)href(\s*)=(\"|')(.*?)(\4)",re.I|re.DOTALL), #博客链接url
'lastpagenum': re.compile(r"<a(\s*)href=(.*?)\?page=(\d)\">尾页",re.I|re.DOTALL), #尾页链接
'title':re.compile(r"<title>(.*?)</title>",re.I|re.DOTALL)
} class Http:
"""
由于CSDN做了特殊处理,如果使用简单的httplib2.Http().request()会抓取不到数据,所以我们需要模拟真实用户行为,
"""
def __init__(self):
cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
#urllib2.install_opener(opener)
self.opener.addheaders = [("User-agent","Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"),("Accept","*/*"),("Referer","http://www.google.com")] def open(self,url):
return self.opener.open(url) class index:
"""
首页
"""
def GET(self):
return render.index() class category:
"""
获取专栏信息,并显示相应的复选框
"""
def GET(self,name):
name=web.input(name=None).name
url = "http://blog.csdn.net/"+name
try:
opener=Http()
res=opener.open(url)
content = res.read()
category_match=contentMatch['category'].search(content)
if category_match:
left=category_match.group()
right=""
list_match=contentMatch['zlalink'].findall(left)
for i in range(len(list_match)):
if i%2 == 1:
right+="""
<input type="checkbox" name="check" value="%s" /> %s<br />
""" % (list_match[i][3],list_match[i][6])
submit="""<button type="button" class="btn" onclick="down()">下载专栏</button>"""
return left+right+submit
else:
return "该用户没有开通专栏"
except Exception:
return "请检查网络和用户名" class createfile(threading.Thread):
"""
下载专栏中文章的线程类
"""
def __init__(self,zlurl):
threading.Thread.__init__(self)
self.blogurl=[]
self.opener=Http()
self.zlname=""
try:
res=self.opener.open(zlurl)
content = res.read()
zlname_match=contentMatch['title'].search(content)
if zlname_match:
self.zlname="".join(zlname_match.group(1).split('-')[:-2]).decode('utf8')
if not os.path.exists(self.zlname):
os.mkdir(self.zlname)
else:
thread.exit_thread()
if content.find("尾页") < 0:
self.addblog(content)
else:
page_match=contentMatch['lastpagenum'].search(content)
page=int(page_match.group(3))
for x in range(1,page+1):
url="%s?page=%d" %(zlurl,x) #分页处理
content=self.opener.open(url).read()
self.addblog(content) except Exception,e:
print 'init:'+str(e)
thread.exit_thread() def addblog(self,content): #获取文章url
try:
blogs_match=contentMatch['blogalink'].findall(content)
if blogs_match:
for m in blogs_match:
if m[4] not in self.blogurl:
self.blogurl.append(m[4])
except Exception,e:
print "addblog:"+str(e) def write(self,content): #写入文件
try:
if content !="":
blogtitle="".join(contentMatch['title'].search(content).group(1).split('-')[:-3])
#path="%s%s%s.html" %(self.zlname.encode('utf8'),os.sep,blogtitle)
path="%s.html" % blogtitle
f = open(path.decode('utf8'),"w")
f.write(content.decode('utf8'))
f.close()
except Exception,e:
print "write:"+str(e) def run(self):
try:
print len(self.blogurl)
for blog in self.blogurl:
self.write(self.opener.open(blog).read())
except Exception,e:
print "run:"+str(e) class down:
def GET(self):
urls=web.input().urls
urllist=urls.split('*')
for url in urllist:
file=createfile(url)
file.start()
file.join()
#等待线程结束,结束后返回下载完成
return "下载完成" if __name__=='__main__':
app = web.application(urls,globals())
app.run()

使用了多线程,博主有几个专栏,将启动几个线程,主程序等待线程结束。

在这里也遇到了一个问题,本身是每个专栏一个文件夹,但处理时有点问题,拼接path后open时总是报没有这个文件或文件夹,应该是编码的问题。

留个遗憾,等待各位亲的指教。

python实战--csdn博客专栏下载器的更多相关文章

  1. Python采集CSDN博客排行榜数据

    文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知 ...

  2. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

  3. Python爬取CSDN博客文章

    0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...

  4. Python 爬取CSDN博客频道

    初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...

  5. python环境变量配置 - CSDN博客

    一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...

  6. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  7. 在CSDN开通博客专栏后如何发布文章(图文)

    今天打开电脑登上CSDN发现自己授予了专栏勋章,有必要了解如何在专栏发布文章. 很感谢已经有前辈给出了图文教程,此文章转载自博客:http://blog.csdn.net/upi2u/article/ ...

  8. mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310

    mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310

  9. Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客

    原文:Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客 Docker安装elasticsearch-head监控ES步骤 docker拉取镜像 ...

随机推荐

  1. 关系操作符 == != equals()

    ==  和!= //: object/test.java package object; import java.util.*; public class Test{ public static vo ...

  2. Fiddler抓包9-保存会话(save)

    前言 为什么要保存会话呢?举个很简单的场景,你在上海测试某个功能接口的时候,发现了一个BUG,而开发这个接口的开发人员是北京的一家合作公司.你这时候给对方开发提bug, 如何显得专业一点,能让对方心服 ...

  3. Grafana 监控系统是否重启

    一.概述 Linux 内核(以下简称内核)是一个不与特定进程相关的功能集合,内核的代码很难轻易的在调试器中执行和跟踪.开发者认为,内核如果发生了错误,就不应该继续运 行.因此内核发生错误时,它的行为通 ...

  4. MVC开发中的常见错误-05-无法将类型“System.Data.Entity.Infrastructure.DbQuery<BBFJ.OA.Model.RoleInfo>”转换为“System.Collections.Generic.List<BBFJ.OA.Model.RoleInfo>”

    List<RoleInfo> roleInfoList = (List<RoleInfo>)ViewBag.AllRoles; 错误原因很明确了 ViewBag.AllRole ...

  5. C/S权限系统得到拼音和五笔的自定义函数(二)

    得到五笔: CREATE FUNCTION [dbo].[fun_getWB](@Str VARCHAR(2000)) RETURNS VARCHAR(2000) AS BEGIN DECLARE @ ...

  6. 【C++ Primer | 15】构造函数与拷贝控制

    合成拷贝控制与继承 #include <iostream> using namespace std; class Base { public: Base() { cout << ...

  7. Kubernetes图形化归纳总结基础介绍整理

    今天了解了下k8s,看了很多资料,自己归纳总结下,如果需要测试集群的话需要准备三台Linux服务器,一台做Master,其余两台作为Node仆从(MINION)节点, 先说下Node节点,就是宿主机器 ...

  8. SVM(支持向量机)分类算法

    SVM算法比较复杂,数学功底要求很高. 详见七月大神博客<支持向量机通俗导论(理解SVM的三层境界)>

  9. Scrapy项目结构分析和工作流程

    新建的空Scrapy项目: spiders目录: 负责存放继承自scrapy的爬虫类.里面主要是用于分析response并提取返回的item或者是下一个URL信息,每个Spider负责处理特定的网站或 ...

  10. Python中 各种数字类型的判别(numerica, digital, decimal)

    一. 全角和半角 全角:是指一个全角字符占用两个标准字符(或两个半角字符)的位置. 全角占两个字节. 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符.在全角中 ...