Meta Blogging

由来

偶然想到说如果哪一天cnblogs挂了，那之前记录的随笔怎么办？可不可以把它们给download下来本地保存一份。正好看到有个库叫requests, 干嘛不试试看呢。

开工

有了requests 和 beautifulsoup，代码其实很简单。唯一需要注意的是，不能太频繁地用requests.get来抓取网页，不然会报错。一般的网站都会有类似的自我保护机制吧，防止被爬虫给爬死了。

import requests

from BeautifulSoup import BeautifulSoup

import re

import os

import time

URL='http://www.cnblogs.com/fangwenyu/p/'

URL_PATTERN = 'http://www.cnblogs.com/fangwenyu/p|archive'

pattern = re.compile(URL_PATTERN)

DIRECTORY = os.path.dirname(__file__)

ESCAPE_CHARS = '/\:*?"<>|' # Those characters are not allowed to be used in file name in Windows.

tbl = {ord(char): u'' for char in ESCAPE_CHARS}

# get the total page number

page_count = 0

resp = requests.get(URL)

if resp.status_code == requests.codes.ok:

    soup = BeautifulSoup(resp.content)

    attr = {'class':'Pager'}

    result = soup.find('div', attr)

    page_count = int(result.getText()[1:2])

with open(os.path.join(DIRECTORY, 'blog_archive.txt'), 'w') as blog_archive:

    for page in range(1,page_count+1):

        param = {'page':page}

        resp = requests.get(URL, params=param)

        soup = BeautifulSoup(resp.content, convertEntities=BeautifulSoup.HTML_ENTITIES)

        blog_list = [(a.getText(), a.get('href')) for a in soup.findAll('a', id=True, href=pattern)]

        for title, link in blog_list:

            norm_title = title.translate(tbl)

            item = '%s |[%s]| %s ' % (title, norm_title, link)

            blog_archive.write(item.encode('utf-8'))

            blog_archive.write('\n')

            with open(os.path.join(DIRECTORY, norm_title + '.html'), 'w') as f:

                f.write(requests.get(link).content)

        # sleep for some time as access the cnblogs too freqently will cause the server not respond.

        # Something like this --

        # ...

        # requests.exceptions.ConnectionError: ('Connection aborted.', error(10060, 'A connection attempt failed

        # because the connected party did not properly respond after a period of time, or established connection failed

        # because connected host has failed to respond'))

        time.sleep(5)

Meta Blogging的更多相关文章

常用 meta 整理
 <meta name="HandheldFriendly" con ...
meta标签
参考:http://www.jb51.net/web/158860.html META标签分两大部分:HTTP标题信息(HTTP-EQUIV)和页面描述信息(NAME). 一.HTTP标题信息(HTT ...
Django模型类Meta元数据详解
转自:https://my.oschina.net/liuyuantao/blog/751337 简介使用内部的class Meta 定义模型的元数据,例如: from django.db impo ...
H5 meta小结
<meta name="viewport" content="width=device-width,initial-scale=1,minimum-scale=1, ...
Asp.net 后台添加CSS、JS、Meta标签
Asp.net 后台添加CSS.JS.Meta标签的写法,我这里写成函数方便以后使用.如果函数放在页面类中, Page参数也可以不要. 首先导入命名空间 using System.Web.UI.Htm ...
较为完整的meta
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
浏览器内核控制Meta标签说明文档【转】
背景介绍由于众所周知的情况,国内的主流浏览器都是双核浏览器:基于Webkit内核用于常用网站的高速浏览.基于IE的内核用于兼容网银.旧版网站.以360的几款浏览器为例,我们优先通过Webkit内核渲 ...
HTML <meta> 标签，搜索引擎
关于Mate标签的详尽解释,请查看w3school 网址为:http://www.w3school.com.cn/tags/tag_meta.asp meta标签作用 META标签是HTML标记HEA ...
内核控制Meta标签：让360浏览器默认使用极速模式打开网页(转)
为了让网站页面不那么臃肿,也懒的理IE了,同时兼顾更多的国内双核浏览器,在网页页头中添加了下面两行Meta控制标签. 1,网页头部加入 <meta name="renderer&quo ...

随机推荐

（LeetCode 189）Rotate Array
Rotate an array of n elements to the right by k steps. For example, with n = 7 and k = 3, the array ...
CheeseZH: Stanford University: Machine Learning Ex3: Multiclass Logistic Regression and Neural Network Prediction
Handwritten digits recognition (0-9) Multi-class Logistic Regression 1. Vectorizing Logistic Regress ...
虎嗅：小米盒子vs乐视盒子
机顶盒并非新鲜概念,可一旦和互联网发生了跨界关系,就会产生奇妙的反应.自年初小米盒子和乐视盒子分别在突破重重阻碍成功发售之后,互联网企业进军硬件制造领域的趋势愈发明显.今天我们拿到了两家的盒子产品,从 ...
storm0.9.0.1升级安装
来自:http://blog.csdn.net/liuzhoulong/article/details/21112101 1,下载0.9.0.1 http://storm.incubator.apac ...
Web 应用性能提升的 10 个建议
建议一.利用反向代理服务器加速和保护应用如果 Web 应用运行在一台独立的电脑上,性能问题的解决方案是显而易见的:换一台更快的电脑,里面加上更多的处理器.内存.快速磁盘阵列等等.然后在这台新电脑上运 ...
JAVA遍历Map的方法
import java.util.HashMap; import java.util.Iterator; import java.util.Map; public class TestMap { pu ...
java beanUtils框架
beanUtils是Apache觉得sun公司的内省不够爽,自己又开发了一套可以操作JavaBean的API 所以beanUtils是第三方jar包,使用beanUtils要导包: 在工程目录下新建一 ...
Windows I/O完成端口
内容: 1.基本概念 2.WINDOWS完成端口的特点 3.完成端口(Completion Ports )相关数据结构和创建 4.完成端口线程的工作原理 5.Windo ...
eclipse中英文版转换（前提：有中文包）
均为命令行启动(一次就可以) 中文版启动:eclipse.exe -nl zh 英文版启动:eclipse.exe -nl en
搭建Hexo博客并部署到Github
参考: http://www.jianshu.com/p/a67792d93682 http://jingyan.baidu.com/article/d8072ac47aca0fec95cefd2d. ...

Meta Blogging

Meta Blogging

由来

开工

Meta Blogging的更多相关文章

随机推荐

热门专题