【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件

1. 多个PDF文件合并
1.1 需求描述
有时候，我们下载了多个PDF文件，但希望能把它们合并成一个PDF文件。例如：你下载的数个PDF文件资料或者电子发票，你可以使用python程序合并成一个PDF文件，无论是阅读或是打印都更方便些。

1.2. 技术分析
首先，我们要读取某一个目录（为了简化，我们假设Python代码和PDF文件都放在此目录下）的所有PDF文件，然后调用 PdfFileMerger 库进行合并，最后打印输出文件完成。

1.3. 代码实现
remove_pdf_file(file): 删除一个pdf 文件，主要用来删除合并生成的pdf文件
get_all_pdf_files(path): 读取路径path下所有的pdf文件，返回一个列表
merge_pdf_file(pdfs): 把在列表pdfs里包含的多个pdf文件合并成一个pdf文件 merged_pdf_file.pdf
Python 代码

# merge_pdf_files.py

from PyPDF2 import PdfFileMerger
import os, sys

def remove_pdf_file(file):
os.remove(file)

def get_all_pdf_files(path):
pdfs = [ file for file in os.listdir(path) if '.pdf' in file ]
return pdfs

def merge_pdf_file(pdfs):
pdf_file_merger = PdfFileMerger()
merged_pdf = 'merged_pdf_file.pdf'

for pdf in pdfs:
if merged_pdf == pdf:
remove_pdf_file(pdf)
try:
pdf_file_merger.append(open(pdf, 'rb'))
except:
print("merging pdf file %s failed." % pdf)

with open(merged_pdf, 'wb') as fout:
pdf_file_merger.write(fout)

return merged_pdf

def main():
pdfs = get_all_pdf_files(sys.path[0]) # current path

print('The file', merge_pdf_file(pdfs), 'is generated.')

if __name__ == "__main__":
main()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
2. 网页上自动下载多个PDF文件并合并PDF文件
2.1 需求描述
如果有一个新需求是从某个网页上自动下载多个PDF文件，最后把多个PDF文件合并成一个PDF文件，该如何实现呢？

2.2 技术分析
我们使用requests库来抓取网页，使用正则表达式分析网页上的所有PDF文件，然后使用requests库把所有的PDF文件自动下载下来，最后把多个PDF文件合并生成一个文件merged_pdf_file.pdf

2.3 代码实现
get_page_source(url): 读取网页的内容
get_all_pdfs_url(html): 分析网页内容找到所有PDF文件的列表
download_all_pdf_files(url, pdfs): 从网上下载所有PDF文件到当前目录
remove_pdf_file(file): 删除一个pdf 文件，主要用来删除合并生成的pdf文件
remove_pdf_file(pdfs): 删除列表里的pdf 文件，主要用来删除临时下载的pdf文件
merge_pdf_file(pdfs): 把在列表pdfs里包含的多个pdf文件合并成一个pdf文件merged_pdf_file.pdf
Python 代码

# download_merge_pdf_files.py

import re
import requests
import sys
import os
from PyPDF2 import PdfFileMerger

def get_page_source(url):
r = requests.get(url)
return r.text

def get_all_pdfs_url(html):
all_files = re.findall('<li><a href=(.*?)class="title">', html, re.S)

return [item.strip()[1:-1] for item in all_files if "pdf" in item]

def download_all_pdf_files(url, pdfs):
print("The following pdf files are downloaded from", url)
for index, pdf in enumerate(pdfs, 1):
print("%d. %s" %(index, pdf))

response = requests.get(url + pdf , stream=True)

try:
new_pdf_file = str(index)+'. '+pdf
with open(new_pdf_file, 'wb') as handle:
for block in response.iter_content(1024):
handle.write(block)
except:
print("writing pdf file %s failed." % new_pdf_file)

def merge_pdf_files(pdfs):
pdf_file_merger = PdfFileMerger()
merged_pdf = 'merged_pdf_file.pdf'

for index, pdf in enumerate(pdfs, 1):
if merged_pdf == pdf:
remove_pdf_file(pdf)
try:
new_pdf_file = str(index)+'. '+pdf
pdf_file_merger.append(open(new_pdf_file, 'rb'))
except:
print("merging pdf file %s failed." % new_pdf_file)

with open(merged_pdf, 'wb') as fout:
pdf_file_merger.write(fout)

return merged_pdf

def remove_pdf_file(file):
os.remove(file)

def remove_pdf_files(pdfs):
for file in pdfs:
remove_pdf_file(file)

def main():
URL = "http://www.cs.brandeis.edu/~cs134/"
html = get_page_source(URL)
pdfs = get_all_pdfs_url(html)

download_all_pdf_files(URL, pdfs)
print('The file', merge_pdf_files(pdfs), 'is generated.')
#remove_pdf_files(pdfs) # if we want to remove those original pdf files

if __name__ == "__main__":
main()

#The following pdf files are downloaded from http://www.cs.brandeis.edu/~cs134/
#1. Lecture1-Overview.pdf
#2. Lecture2-ProbabilityFundementals.pdf
#3. Lecture3-TextClassification-NB-Part1.pdf
#4. TextClassification-NB-MaxEnt.pdf
#5. K_F_Ch3.pdf
#6. Handout1.pdf
#7. Quiz1Topics.pdf
#8. HW1.pdf
#PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]
#The fil

from：https://blog.csdn.net/weixin_43379056/article/details/88020504

【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件的更多相关文章

Python编程：从入门到项目实践高清版附PDF百度网盘免费下载|Python入门编程免费领取
百度网盘:Python编程:从入门到项目实践高清版附PDF免费下载提取码:oh2g 第一部分基础知识第1章起步 21.1 搭建编程环境 21.1.1 Python 2和Python 3 21 ...
python - 将数据转换成 excl 表格, json 等文件（dajngo - 打开网页后自动下载）
本篇只讲述怎么用. 具体 tablib 更多详细用法可参考博客 : https://blog.csdn.net/liangyuannao/article/details/41476277 # 不得不 ...
Xshell5下利用sftp上传下载传输文件
sftp是Secure File Transfer Protocol的缩写,安全文件传送协议.可以为传输文件提供一种安全的加密方法.sftp 与 ftp 有着几乎一样的语法和功能.SFTP 为 SSH ...
selenium3 无人工干预地自动下载某个文件
一:主要内容下载效果展示代码内容展示 saveToDisk不生效说明,即文件没有下载下来解决办法二:展示效果 1.下载效果展示用selenium3无人工干预的自动下载该文件到指定路径下,如:D ...
SpringMVC文件上传下载(单文件、多文件)
前言大家好,我是bigsai,今天我们学习Springmvc的文件上传下载. 文件上传和下载是互联网web应用非常重要的组成部分,它是信息交互传输的重要渠道之一.你可能经常在网页上传下载文件,你可能 ...
IDM下载器添加支持自动下载的文件类型
不知道各位读者老爷有没有试过IDM下载器的自动下载功能,对于经常需要下载素材资源的朋友来说,一个个的选择图片或者其他什么素材来下载也是够烦的,IDM的自动下载功能可谓是十分好用,而且自动下载+批量下载 ...
如何获得网页上的swf视频教程文件？
网上有很多免费的视频教程,但有的视频教程这能在线观看,无法离线下在,如何获得网页上的swf视频教程文件呢? 我问以"我要自学网"的视频教程为例进行讲解.这是一个我要自学网的PS视频 ...
js上传文件带参数，并且，返回给前台文件路径，解析上传的xml文件，存储到数据库中
ajaxfileupload.js jQuery.extend({ createUploadIframe: function(id, uri) { //create frame var frameId ...
（转）GitHub上想下载单个文件方法
找到该文件,单机raw,如下图: 然后会在网页打开该文件,复制URL,下载即可(如果是不可预览文件,会自动下载). 转自: GitHub上想下载单个文件方法 - Smallcaff的博客 - CSDN ...

随机推荐

Python——Python安装
下载地址:https://www.python.org/downloads/windows/ 3.X安装方法: 1. 设置一个自选路径,并将下面的选项打钩.(建议使用根目录) 2. 应用在所有用户中 ...
基于django的生成二维码的接口
原理就是在视图层写一个将数据生成二维码的视图函数: def generate_qrcode(request, data): img = qrcode.make(data) buf = BytesIO( ...
Java--8--新特性--新的日期API
LocalDate.LocalTime.LocalDateTime 类的实例是不可变的对象,分别表示使用 ISO-8601日历系统的日期.时间.日期和时间. Instant 时间戳, 用于“时间戳 ...
Maven的下载，配置环境，导入编译器，使用说明一条龙
什么是Maven?可以认为Maven是写程序时导入jar包的一个轻便的工具. 第一步Maven下载 1.Maven(点击进入),点击一个zip包下载 2.解压maven包,复制maven ...
HTML&CSS基础-内边框
HTML&CSS基础-内边框作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HTML源代码 <!DOCTYPE html> <html> &l ...
Andrew Ng机器学习三：Multi-class Classification and Neural Networks
背景:识别手写数字,给一组数据集ex3data1.mat,,每个样例都为灰度化为20*20像素,也就是每个样例的维度为400,加载这组数据后,我们会有5000*400的矩阵X(5000个样例),会有5 ...
STL详细介绍（更新中~~~）
目录 string string的常见构造函数 string与char *(或const char*)之间的转换 string 转化为const char* const char* 转化为string ...
Makefile学习二
今天继续对Makefile进行研究,话不多说,进入正题: make常用内嵌函数: 下面利用上面的知识点来实现一个多级目录的Makefile,如下: 多级目录Makefile: 这个例子的目录结构如下: ...
MyBatis_tp50_动态sql_sql标签_抽取可重用的sql片段_使用include标签进行引用
笔记要点出错分析与总结 include内部使用自定的属性,之能使用$ {}来取值 ,#{}不能用工程组织数据库组织0.重新修改Bean类1.定义接口 public interface Employe ...
test20190827 NOIP2019 模拟赛
100+100+50=250.最后那道期望题需要用另外的方式统计. 精灵加护 ljss 被 M 个敌人打倒在地上啦!每个敌人有一个威力值 bi.但是他手中还拥有 N 把武器!每把武器有一个威力值 ai ...

【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件

【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件的更多相关文章

随机推荐

热门专题