Python抓取单个网页中所有的PDF文档
Github博文地址,此处更新可能不是很及时。
1.背景
最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法。结合最近在学英语,然后干脆就用英文喽。然后选定一本参考书籍《Data Structures and Algorithms in Java》。
刚开始看还是蛮吃力的,慢慢来。由于之前有翻录书籍附录的习惯,于是就去书籍附带的官网看了下,发现http://ww0.java4.datastructures.net/handouts/ 里面附带的PDF文档居然不错,图文并茂,作为理解是个不错的材料,果断要下载啊。但是,尼玛,结果发现,好多个,这一个一个另存为真是要命,想想还是用什么办法下载下来吧。
2.实现
考虑目前学过的了解的所有语言,可以用来实现的,排列一下程度:
- Java/Android 熟悉
- C# 熟悉
- Python 了解语法
- Javascript 了解一些
- C/C++ 了解语法
为了实现这个,当然是最简单最快最好了。考虑到大学一直用C#,要不用它?但发现OSX平台只能用Mono了,还得重新熟悉。Java实现也不快,从需要的时间考虑。Javascript不熟,貌似可以用node.js去写(atom就是用的它)。不熟。C/C++好多年没用过了,而且,实现起来代码一大堆,特别麻烦。再考虑之前一段时间正好在Codecademy学过语法,就拿它来练手吧。
OK,确定了用Python。后续就是怎么去请求网络了,解析网页html标签,提取下载链接,下载文件了。虽然不懂这些在Python里面是怎么实现的,但是流程是确定的,按照流程去网站找现成的,此处不研究原理,实现功能即可。
接下来就是各种搜索引擎搜索东西了,Google可,百度亦可(不同引擎侧重不一样)。不要忘了目的是什么,搜索相关的资料。
好了,搜索之后,确定请求网络下载网页用requests,解析html用BeautifulSoup,提取下载链接BeautifulSoup,下载文档(stackoverflow中找到了一段下载文件的代码)。
然后就是把她们一起组合了。组合之后的代码如下:
#file-name: pdf_download.py
__author__ = 'rxread'
import requests
from bs4 import BeautifulSoup def download_file(url, index):
local_filename = index+"-"+url.split('/')[-1]
# NOTE the stream=True parameter
r = requests.get(url, stream=True)
with open(local_filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=1024):
if chunk: # filter out keep-alive new chunks
f.write(chunk)
f.flush()
return local_filename #http://ww0.java4.datastructures.net/handouts/
root_link="http://ww0.java4.datastructures.net/handouts/"
r=requests.get(root_link)
if r.status_code==200:
soup=BeautifulSoup(r.text)
# print soup.prettify()
index=1
for link in soup.find_all('a'):
new_link=root_link+link.get('href')
if new_link.endswith(".pdf"):
file_path=download_file(new_link,str(index))
print "downloading:"+new_link+" -> "+file_path
index+=1
print "all download finished"
else:
print "errors occur."
运行以下代码便可以把所有的pdf文档下载到本地。
python pdf_download.py
3.优化
30多行代码,全部搞定,真是简洁明了,果然做Python用来一些脚本任务还是不错的。利用它下载了41个文档。
最开始下载下来的文档没有序号,这样看的时候就不知道先后,于是我给文件名前面加了个序号。
其他的优化部分可以参考如下:
- 考虑现在函数的一些异常出错没有处理,后续需要处理。
- 函数没有完全封装,下载的文件类型支持不多,这个后续可以根据自己的需求进行扩展。
- 下载的文件少的时候可能这样就行了,但是文件多的话,是有必要使用多个线程(适量的数量)或者线程池去下载,从而加快下载速度。
- 有些写法可能不符合python语法规范,当然写了与没写已经是0和1的区别了。
- 其他细节,比如pdf有可能是大写的PDF。
4.附录
- 《Data Structures and Algorithms in Java》(Michael T. Goodrich, Roberto Tamassia)下载 http://bookzz.org/ 或者http://it-ebooks.info/
以下两个网站都是不错的书籍下载网站,有条件还是买本正版书籍支持一下作者吧。
一般我会先下载电子书看下,合适就买纸质版。 - Python语法入门 http://www.codecademy.com/zh/tracks/python
以上,便是如此了。
本文来自RxRead’s Blog,欢迎转载,转载请注明。
欢迎一起交流探讨。
Python抓取单个网页中所有的PDF文档的更多相关文章
- Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址 通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
- 如何在ASP.NET Core 中快速构建PDF文档
比如我们需要ASP.NET Core 中需要通过PDF来进行某些简单的报表开发,随着这并不难,但还是会手忙脚乱的去搜索一些资料,那么恭喜您,这篇帖子会帮助到您,我们就不会再去浪费一些宝贵的时间. 在本 ...
- python抓取中文网页乱码通用解决方法
注:转载自http://www.cnpythoner.com/ 我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法. 首页我们需 ...
- 如何使用JAVA语言抓取某个网页中的邮箱地址
现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址 实现思路如下: 1.使用Java.n ...
- 在网页中在线浏览ppt文档
方法一: 把ppt文件的扩展名直接修改为pps,嵌入到网页中 缺点:这种方式浏览器会提示是打开,还是下载,选择打开的话会直接在浏览器中打开,并且客户端一定要安装Office PowerPoint才能打 ...
- 第一个python抓取单网页的例子
#!/usr/bin/env python # coding=utf-8 import requests from bs4 import BeautifulSoup import pymysql im ...
- 【转】详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
- 将w3cplus网站中的文章页面提取并导出为pdf文档
最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中 ...
- ABBYY PDF Transformer+从文件选项中创建PDF文档的教程
可使用OCR文字识别软件ABBYY PDF Transformer+从Microsoft Word.Microsoft Excel.Microsoft PowerPoint.HTML.RTF.Micr ...
随机推荐
- 在C#中调用另一个应用程序或命令行(.exe 带参数)<zz>
在.net中使用system.diaglostics.Process可以用来调用另一个命令行或程序. using System.Diagnostics; 如果是dos Proces ...
- 2014多校第一场 I 题 || HDU 4869 Turn the pokers(费马小定理+快速幂模)
题目链接 题意 : m张牌,可以翻n次,每次翻xi张牌,问最后能得到多少种形态. 思路 :0定义为反面,1定义为正面,(一开始都是反), 对于每次翻牌操作,我们定义两个边界lb,rb,代表每次中1最少 ...
- 【互联网那些事儿】小度 i 耳目
关于这个产品是什么,大家自行度. 这里我主要想说的,是百度关于这个产品的一点……呃,“卖萌”的介绍语言. 小度i耳目常见问题 问:为什么叫小度i耳目呢,貌似不太好记忆. 答:名字嘛都是父母起的,不过时 ...
- Spring 注入static变量
一般我们我想注入一个static的变量,如下: @Autowired private static String str; 不过,这样最终结果为null. 1.使用配置文件的方式注入 priva ...
- cojs 自己出的题目 解题报告
省选成功成为河北B队队长QAQ 真是忧桑 所以在cojs上出了一套鬼畜的关于树的套题 黑白树: 我们先不考虑R操作 设x是u的祖先,那么fa(x)的贡献显然是 fa(x)*(sz(fa(x))-sz( ...
- PHP魔术方法小结.md
说明 魔术方法就是在特定场景下不需要调用而自动执行的方法.因为有魔术方法,所以我们的类可以写得很灵活~ __construct #构造方法,在类被实例化时自动调用,一般用于初始化操作; __destr ...
- CentOS7安装Hadoop2.7完整流程
总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs.mapreduce等主从关系. 1.环境,3台CentOS7,64位,Hadoo ...
- 从零开始,让你的框架支持CocoaPods
本文为投稿文章,作者:奴良(简书) 这两天一直琢磨着想让自己的一个照片多选框架支持CocoaPods下载安装,就搜了好多资料,但是搜到的资料大多都是最基本的,并没有解决我遇到的问题,问题如下: 当自己 ...
- 用ISO C++实现自己的信号槽(Qt另类学习)
qtc++objectsignalclassstring 目录(?)[-] Qt信号与槽 引入元对象系统 建立信号槽链接 信号的激活 槽的调用 全家福 零零散散写在后面 Q_OBJECT Conn ...
- Android 在Intent中传递接口
总结:在Activity中不能用intent传递匿名接口,原因如下:Activity A中生成了匿名接口M, 这个接口的引用就在组Activity A中,Activity A会禁止接口M 序列化.因为 ...