Python小爬虫-自动下载三亿文库文档

　　新手学python，写了一个抓取网页后自动下载文档的脚本，和大家分享。

首先我们打开三亿文库下载栏目的网址，比如专业资料（IT／计算机／互联网）http://3y.uu456.com/bl-197?od=1&pn=0，可以观察到，链接中pn=后面的数字就是对应的页码，所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn='，后面加上页码来抓取网页.

一般网页会用1，2，3...不过机智的三亿文库用0，25，50...来表示，所以我们在拼接url时还得转换一下。

右键查看网页源代码，可以观察到这里每一个文档都用一个<a>标签标记，href对应文档的链接，title是文档名字，我们只需要用正则表达式将其“扣”出来就可以了.

不过你会发现我们扣出来的文档地址eg："bp-602d123348d7c1c708a14sqb-1.html"，并不是真正的文档下载地址，进一步点击文档至下载页面，我们可以发现文档真正的下载路径是：“dlDoc-602d123348d7c1c708a14sqb-1-toword.doc”，清晰易见，我们只需提取文档序号602d123348d7c1c708a14sqb-1，再拼接起来便OK了。

<p>

　　<a href="bp-602d123348d7c1c708a14sqb-1.html" title="视频会议系统" target="_blank">视频会议系统</a>

</p>

<a rel="nofollow" target="_blank" href="dlDoc-602d123348d7c1c708a14sqb-1-toword.doc">视频会议系统-第1页.doc</a>

运行结果如下：

代码如下：

# -*- coding: utf-8 -*-

#-----------------------------------------------------

#   功能：将访问的页面存储为html文件，并将页面内的文档下载至本地

#   作者：chenbjin

#   日期：2014-07-10

#   语言：Python 2.7.6  
#   环境：linux（ubuntu）

#-----------------------------------------------------

import string

import urllib

import urllib2

import re

import os

#函数功能：抓取begin-end页面，存入threeuPage文件夹中，并将其中的文档下载到threeuFile文件夹中。

def threeu_page(burl,url,begin_page,end_page) :

    #The directory to save web page

    sPagePath = './treeuPage'

    if not os.path.exists(sPagePath) :

        os.mkdir(sPagePath)

    #The director to save downloaded file

    sFilePath = './threeuFile'

    if not os.path.exists(sFilePath) :

        os.mkdir(sFilePath)

    for i in range(begin_page,end_page+1) :
        pn = (i-1)*25

        #自动填充成六位的文件名，eg:00001.html

        sName = sPagePath + '/'+ string.zfill(i,5) + '.html'

        print 'Spidering the ' + str(i) + ' page ,saved to ' + sName + '...'

        f = open(sName,'w+')

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        headers = { 'User-Agent' : user_agent }

        request = urllib2.Request(url+str(pn),headers = headers)

        try:

            con = urllib2.urlopen(request, timeout=10).read()

            #正则匹配出文档的地址

            myItems = re.findall('<a href="bp-(.*?).html" title="(.*?)" target="_blank">(.*?)</a>',con,re.S)

            #print "Total : ",len(myItems)

            for item in myItems :

                print 'Dowloading the ' +item[0] + "  "+ item[1].decode('gbk') + '...'

                #下载文档

                durl = burl+item[0]+'-toword.doc'

                urllib.urlretrieve(durl,sFilePath+'/'+item[1].decode('gbk')+'.doc')

        except urllib2.URLError,e :

            print e

        else:

            f.write(con)

        f.close()

#这是三亿文库中“专业资料 > IT/计算机 > 互联网”的地址

burl = 'http://3y.uu456.com/dlDoc-'

iurl = 'http://3y.uu456.com/bl-197?od=1&pn='

ibegin = 1

iend = 1

threeu_page(burl,iurl,ibegin,iend)

#end

　　参考资料：

1.Python爬虫入门教程：http://blog.csdn.net/column/details/why-bug.html

Python小爬虫-自动下载三亿文库文档的更多相关文章

【微信小程序】下载并预览文档——pdf、word、excel等多种类型
.wxml文件 <view data-url="https://XXX/upload/zang." data-type="excel" catchtap= ...
【工具篇】利用DBExportDoc V1.0 For MySQL自动生成数据库表结构文档
对于DBA或开发来说,如何规范化你的数据库表结构文档是灰常之重要的一件事情.但是当你的库,你的表排山倒海滴多的时候,你就会很头疼了. 推荐一款工具DBExportDoc V1.0 For MySQL( ...
js仿百度文库文档上传页面的分类选择器_第二版
仿百度文库文档上传页面的多级联动分类选择器第二版,支持在一个页面同一时候使用多个分类选择器. 此版本号把HTML,CSS,以及图片都封装到"category.js"中.解决因文件路 ...
基于数据库的自动化生成工具，自动生成JavaBean、数据库文档、框架代码等(v5.8.8版)
TableGo v5.8.8版震撼发布,此次版本更新如下: 1.新增两个扩展字段,用于生成自定义模板时使用. 2.自定义模板新增模板目录,可以选择不同分类目录下的模 ...
自动生成并导出word文档
今天很荣幸又破解一现实难题:自动生成并导出word文档先看页面效果: word效果: 代码: 先搭建struts2项目创建action,并在struts.xml完成注册 <?xml vers ...
IIS下不能下载文件的docx文档，XLSX文档的设置方法（转）
IIS下不能下载文件的docx文档,XLSX文档的设置方法 Office 2007的的界面风格默认格式中都是.DOCX,XLSX,PPTX等等后缀,连结中包含此类文件时,界面风格默认什么打不开的其实只 ...
【三】MongoDB文档的CURD操作
一.插入文档使用insert方法插入文档到一个集合中,如果集合不存在创建集合,有以下几种方法: db.collection.insertOne({}):(v3.2 new) #插入一个文档到集合中 ...
XHTML 1.0 的三种 XML 文档类型 DOCTYPE
XHTML 1.0 的三种 XML 文档类型 XHTML 1.0 规定了三种 XML 文档类型 XHTML 1.0 Strict <!DOCTYPE html PUBLIC "-//W ...
【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...

随机推荐

PHP获取汉字的转化为拼音字母实现程序
一个完整的php获取汉字拼音字母的实现程序,有需要的朋友可参考一下. <?php class GetPingYing { private $pylist = array( 'a'=>-20 ...
Sharepoint2010突然之间不能打开页面，报503错误The service is unavailable
原因:安装Sahrepoint时的账号出现故障,可能是密码过期等等. 解决方案: 新建windows用户ada,密码设置为永不过期,隶属于:administrators/IIS-WPG/WSS-WPG ...
类似UC天气下拉和微信下拉眼睛头部弹入淡出UI交互效果（开源项目）。
Android-PullLayout是github上的一个第三方开源项目,该项目主页是:https://github.com/BlueMor/Android-PullLayout 原作者项目意图实现 ...
bzoj 2152: 聪聪可可
#include<cstdio> #include<algorithm> using namespace std; ; ],head[N],son[N],f[N],d[N],r ...
ie9,10 uploadify cleanUp bug
起因:ie多次加载uploadify3.2版本这个组件的时候,出现了SCRIPT5007: 缺少对象． From:http://blog.163.com/xiangfei209@126/blog/s ...
python练习——最长的递减子序列
题目: 求一个数组的最长递减子序列比 , 如随机生成一组序列 {8,9,6,3,6,2,3,4} 求得最长递减序列 {9,8,6,4,3,2} list=[3,3,3,3,6,2,3,4] //冒 ...
码表由来：ascll码-Gbk2312-GBK-Unicode-UTF-8
码表ascll码-Gbk2312-GBK-Unicode-UTF-8, ascll是基本的标准码表,GB2312是中文码表,GBK是扩展之后的码表,Unicode是国际通用码表,UTF-8是优化后的U ...
HDU 4737 A Bit Fun
题意:定义F(i,j)为数组a中从ai到aj的或运算,求使F(i,j)<m的对数. 思路:或运算具有单调性,也就是只增不减,如果某个时刻结果大于等于m了,那么再往后一定也大于等于m.所以可以用两 ...
C语言约瑟夫圈问题：N个人围成一圈，从第一个人开始按顺序报数并编号1,2,3，……N，然后开始从第一个人转圈报数，凡是报到3的退出圈子。则剩下的最后一个人编号是多少。
样例输入3 输出2 输入100 输出91 代码及分析: #include<stdio.h> int main() { int i,n,N,out,a[1000]; out=i=n=0 ...
知道创宇研发技能表v2.2
知道创宇研发技能表v2.2 2014/3/9 发布 by @知道创宇(www.knownsec.com) @余弦 & 行之知道创宇是国内Geek十足且普遍被认为特别有前途的互联网安全公司, ...

Python小爬虫-自动下载三亿文库文档

Python小爬虫-自动下载三亿文库文档的更多相关文章

随机推荐

热门专题