[Python爬虫]cnblogs博客备份工具(可扩展成并行)
并发爬虫小练习。
直接粘贴到本地,命名为.py文件即可运行,运行时的参数为你想要爬取的用户。默认是本博客。
输出是以用户名命名的目录,目录内便是博客内容。
仅供学习python的多线程编程方法,后续会重写成并行爬虫。
爬虫代码如下:
# -*- coding:utf-8 -*-
from multiprocessing.managers import BaseManager
from pyquery import PyQuery
import os, sys, urllib
import re, random, logging, time
import Queue, threading, multiprocessing, threadpool USER_NAME = 'kirai'
TOTAL_PAGE_NUMBER = 0
INT_REGEXP = re.compile('([\d]+)')
BASE_URL = 'http://www.cnblogs.com/'+USER_NAME+'/p/?page='
ARTICLE_REGEXP = re.compile('href=\"(http://www.cnblogs.com/'+USER_NAME+'/p/[\d]+.html)\"')
THREAD_NUMBER = multiprocessing.cpu_count() * 2
ARTICLE_URLS_MUTEX = threading.Lock()
ARTICLE_URLS = [] class ListWithLinkExtend(list):
def extend(self, value):
super(ListWithLinkExtend, self).extend(value)
return self def get_total_page_number():
doc = PyQuery(url=BASE_URL)
return int(INT_REGEXP.findall(
doc.find('.pager .Pager').text())[0].encode('ascii')) def get_page_url():
global TOTAL_PAGE_NUMBER
return map(lambda page: BASE_URL+str(page),
[i for i in range(1, TOTAL_PAGE_NUMBER+1)]) def get_article_url(idx):
url = PAGE_URLS[idx]
doc = PyQuery(url=url)
article_urls = ARTICLE_REGEXP.findall(str(doc.find('.PostList .postTitl2')))
return article_urls def handle_result(request, result):
global ARTICLE_URLS_MUTEX, ARTICLE_URLS
try:
ARTICLE_URLS_MUTEX.acquire()
ARTICLE_URLS.append(result)
finally:
ARTICLE_URLS_MUTEX.release() def cluster_process():
global ARTICLE_URLS
# list : urls
task_queue = Queue.Queue()
# str : path
result_queue = Queue.Queue()
KiraiManager.register('get_task_queue', callable=lambda: task_queue)
KiraiManager.register('get_result_queue', callable=lambda: result_queue)
manager = KiraiManager(address=('', 6969), authkey='whosyourdaddy')
manager.start()
manager.shutdown()
# article_flag, article_urls = get_article_url() # a simple way.
def get_article(url):
html = urllib.urlopen(url).read()
return html, INT_REGEXP.findall(url)[0] def save_article(request, result):
content = result[0]
file_name = result[1]
path = './' + USER_NAME + '/' + file_name + '.html'
try:
fp = file(path, 'w')
fp.writelines(content)
finally:
fp.close() def thread_process():
global ARTICLE_URLS
os.mkdir(USER_NAME)
thread_pool = threadpool.ThreadPool(THREAD_NUMBER)
requests = threadpool.makeRequests(get_article, ARTICLE_URLS, save_article)
[thread_pool.putRequest(req) for req in requests]
thread_pool.wait() def __main__(argv):
global ARTICLE_URLS, TOTAL_PAGE_NUMBER, USER_NAME, BASE_URL, ARTICLE_REGEXP, PAGE_URLS, TOTAL_PAGE_NUMBER
if len(argv) == 2:
USER_NAME = argv[1]
BASE_URL = 'http://www.cnblogs.com/'+USER_NAME+'/p/?page='
ARTICLE_REGEXP = re.compile('href=\"(http://www.cnblogs.com/'+USER_NAME+'/p/[\d]+.html)\"')
TOTAL_PAGE_NUMBER = get_total_page_number()
PAGE_URLS = get_page_url()
thread_pool = threadpool.ThreadPool(THREAD_NUMBER)
requests = threadpool.makeRequests(
get_article_url,
[i for i in range(0, TOTAL_PAGE_NUMBER)],
handle_result)
[thread_pool.putRequest(req) for req in requests]
thread_pool.wait()
ARTICLE_URLS = list(reduce(lambda a, b: ListWithLinkExtend(a).extend(ListWithLinkExtend(b)),
ARTICLE_URLS))
thread_process() if __name__ == '__main__':
__main__(sys.argv)
简单介绍下全局变量的意义:
USER_NAME:希望爬取的用户名,默认为kirai。
TOTAL_PAGE_NUMBER:会被更新成博客随笔的总页数。
INT_REGEXP:为了匹配数字的正则。
BASE_URL:随笔页的初始URL。
ARTICLE_REGEXP:在经过pyquery处理过后的每个随笔目录页中提取出博客文章页面的正则。
THREAD_NUMBER:线程数,默认设置是本机cpu核数的2倍。
ARTICLE_URLS_MUTEX:ARTICLE_URLS的锁,保证线程唯一占用。
ARTICLE_URLS:用于存放所有的文章url。
[Python爬虫]cnblogs博客备份工具(可扩展成并行)的更多相关文章
- 推荐一款自己的软件作品[豆约翰博客备份专家],新浪博客,QQ空间,CSDN,cnblogs博客备份,导出CHM,PDF(转载)
推荐一款自己的软件作品[豆约翰博客备份专 豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站( ...
- cnblogs博客迁移到hexo
cnblogs博客备份 备份地址:https://i.cnblogs.com/BlogBackup.aspx?type=1 备份文件为xml格式,打开备份文件,如下所示: <?xml versi ...
- 用Python编写博客导出工具
用Python编写博客导出工具 罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处 写在前面的话 我在 github 上用 octopress 搭建了个人博 ...
- python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...
- python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
- BlogPublishTool - 博客发布工具
BlogPublishTool - 博客发布工具 这是一个发布博客的工具.本博客使用本工具发布. 本工具源码已上传至github:https://github.com/ChildishChange/B ...
- org-mode 写 cnblogs 博客
1. 为什么用org-mode写博客 我最开始用Emacs, 是因为org-mode.这是一个专注于写,而让我忽略展示结果的一种写作方式.为 什么这么说?因为所有内容的格式都是可定制的.按照自己喜欢的 ...
- 有哪些关于 Python 的技术博客?
Python是一种动态解释型的编程语言,它可以在Windows.UNIX.MAC等多种操作系统以及Java..NET开发平台上使用.不过包含的内容很多,加上各种标准库.拓展库,乱花渐欲迷人眼.因此如何 ...
- 把cnblogs变成简书 - cnblogs博客自定义皮肤css样式
吐槽 博客园cnblogs作为老牌的IT技术博客类网站,为广大的开发者提供了非常不错的学习交流平台. 虽然博客内容才是重点,但是如果有赏心悦目的页面不更好吗! cnblogs可以更换博客模板,并且提供 ...
随机推荐
- document获取节点byTagName
/* *对于页面中的超链接,新闻链接通过新窗口打开 *当然是要获取其中被操作的超链接对象. *可是通过Document获取超链接,拿到的是页面中所有的超链接节点. *只想获取一部分如何办呢? *只要获 ...
- 【iCore3 双核心板】iCore3封装库及使用说明V1.0
iCore3封装库及使用说明下载链接: http://pan.baidu.com/s/1pLq23Qb iCore3 购买链接: https://item.taobao.com/item.htm?id ...
- NEC学习 ---- 布局 -三列,左侧自适应
效果图: html代码: <div id="demo4"> <div class="g-bd4 f-cb"> <div class ...
- javaWeb中servlet开发(5)——WEB开发模式:Mode I与Mode II
1.servlet开发 2.model I模式 客户端通过访问JSP,调用里面的javabean,而通过javabean调用处理数据库的操作,javabean中有专门处理数据库的操作,数据库主要以DA ...
- 2014年国人开发的最热门的开源软件TOP 100
不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必.做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多的开源软件,而且还有很多软件被国外的认可.中国是 ...
- connect to https://dl-ssl.google.com refused
这个可能是网络问题,国内连google服务器经常连不上. 尝试用下面办法试下: 1.上图SDK Manager 的 Tools ->Options打开SDK Manager的Settings, ...
- jquery设置checkbox状态,设置dropdownlist选中值,隐藏某控件,给某控件追加东西
jquery设置checkbox状态 $("[ID$=chkType]").attr("checked", true); jquery设置dropdownlis ...
- Qunie问题
Quine 以哲学家 Willard van Orman Quine (1908-2000) 而命名,表示一个可以生成他自己的完全的源代码的程序.编写出某个语言中最简短的 quine 通常作为黑客们的 ...
- URLRedirector 解决网页上无法访问 google CDN 的问题(fonts、ajax、themes、apis等)
URLRedirector 解决网页上无法访问 google CDN 的问题(fonts.ajax.themes.apis等) 由于某些原因,在访问国外的网站时有时候会特别慢,像 stackoverf ...
- csuoj 1511: 残缺的棋盘
http://acm.csu.edu.cn/OnlineJudge/problem.php?id=1511 1511: 残缺的棋盘 时间限制: 1 Sec 内存限制: 128 MB 题目描述 输入 ...