Python | 实现pdf文件分页

不知道大家有没有遇到过这么一种情况，就比如一个pdf格式的电子书，我们经常浏览的是其中的一部分，而这电子书的页数很大，每当需要浏览时，就需要翻到对应的页码，就有点儿繁琐。

还有一些情况，比如，我们想分享pdf文件里的部分内容给别人，我们也需要用到pdf分页，不仅可以分析指定内容，而且也可以减少发送文件的大小O(∩_∩)O哈哈~

总之，pdf的分页，我们在现实生活中，是难免会遇到的事。当你遇到时，你是怎么解决的呢？

在Python中，实现pdf分页，是及其简单的，只需要运行几行代码，即可实现，不管你的pdf文件有多大，下面让我们一起看看吧~

注：每部分代码的作用，我都注释再来代码后面，注意查看喔~

from PyPDF2 import PdfFileReader, PdfFileWriter

import os

def split(path, page_num):

    try:  # 捕获值异常错误，就是只输入了一个页数的时候

        page_start, page_end = page_num.split()

    except ValueError:

        page_start = page_num

        page_end = page_num

    output_name = os.path.splitext(path)[0] + f'({page_start}-{page_end}).pdf'  # 输出分割后的pdf文件

    page_start, page_end = int(page_start), int(page_end)  # 将页码转为整数类型

    if os.path.splitext(path)[1] == '':  # 判断文件格式是否以.pdf结尾

        path = path + ".pdf"

    try:

        pdf = PdfFileReader(path)  # 读取pdf

    except FileNotFoundError:

        print("Error:请确认您输入的pdf文件是否存在！")

        return

    pdf_writer = PdfFileWriter()  # pdf写入对象

    if page_start < 1 or page_end > pdf.getNumPages():  # 判断页码是否在合理范围内，即有没有小于或大于pdf文件的页数

        print("Error:页码超出合理范围，请确定您输入的页数区间在合理范围之内！")

        return

    for page in range(page_start-1, page_end):  # 需要分割的pdf页数区间，因为读取的页数是从0开始计数的，所以减1

        pdf_writer.addPage(pdf.getPage(page))  # pdf页数读取，存于内存，并未开始写入

    with open(output_name, 'wb') as output_pdf:

        pdf_writer.write(output_pdf)  # 开始写入指定页数区间的pdf

    print("分页完成，注意查收：" + output_name)

if __name__ == '__main__':

    source_path = input("请输入需要分割的pdf的文件:")  # 需要分割的pdf文件

    pages = input("请输入分割的起始页和终止页,以空格分开:")

    split(source_path, pages)

其实最主要的代码就下面的几行：

pdf = PdfFileReader(path)  # 读取pdf

pdf_writer = PdfFileWriter()  # pdf写入对象

for page in range(page_start, page_end):  # 需要分割的pdf页数区间

    pdf_writer.addPage(pdf.getPage(page))  # pdf页数读取，存于内存，并未开始写入

with open(output_name, 'wb') as output_pdf:

    pdf_writer.write(output_pdf)  # 开始写入指定页数区间的pdf

我只是在其基础上增加了一些异常错误捕获并解决的代码，并实现代码的循环利用，而不是只针对于一个pdf文件。

代码使用展示：

1.源文件

书的页数还是挺大的

2.目标页数区间

注意，虽然这里的页码是271，但并不代表就是271，因为读取的pdf文件页码是整个文件的页码，就比如书的封面，目录的页数也得包含进去。

所以，我们可以简单算一下，书的页码第一页与到封面差了几页，我这里差的是13页，所以就是271+13=284作为分割起始页，需要截取的页数对应书上的页码是276,276+13=289，所以终止页就是289了

3.代码运行

4.异常捕获的代码展示：

输入的起始页小于1：

pdf页码一共才600页，然后输入了终止页为700：

5.其它

要求的是区间，但你可以输入1 1,1:

代码还可以继续完善，感兴趣的小伙伴可以开动开动一下自己聪明的脑袋瓜子haha

Python | 实现pdf文件分页的更多相关文章

Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
使用Python从PDF文件中提取数据
前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
记一次为解决Python读取PDF文件的Shell操作
目录一.背景二.问题三.解决四.一顿分析及 Shell 操作五.后续一.背景本想将 PDF 文件转换为 Word 文档,然后网上搜索了一下发现有挺多转换的软件.有的是免费的.收费,咱也不 ...
Python实现PDF文件截取
python3截取PDF文件中的一部分. from PyPDF2 import PdfFileWriter, PdfFileReader # 开始页 start_page = 0 # 截止页 end_ ...
windows下用Python把pdf文件转化为图片
依赖:PyMuPDF(pip install pymupdf) # -*- coding: utf-8 -*- """ 1.安装库 pip install pymupdf ...
python读取pdf文件
pdfplumber简介 Pdfplumber是一个可以处理pdf格式信息的库.可以查找关于每个文本字符.矩阵.和行的详细信息,也可以对表格进行提取并进行可视化调试. 文档参考https://gith ...
使用python进行pdf文件分割
Python代码 import os from pyPdf import PdfFileWriter, PdfFileReader def split(pdf_file, delta, output_ ...
【python】用python生成pdf文件
转自:https://www.davidfischer.name/2015/08/generating-pdfs-with-and-without-python/ from reportlab.pla ...
基于Python实现对PDF文件的OCR识别
http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-pytho ...

随机推荐

python中dump与dumps的区别
刚写了一个代吗,没有搞懂dump和dumps的区别,现在搞懂了,下班后在来整理import pickleq = [1,2,3,4]pickle.dump(q,open("cb1.txt&qu ...
MSSQL数据库安全实验
管理SQL Server认证模式 (1)确认 SQL Server 验证 ①在桌面上单击"开始",选择"程序"→"Microsoft SQL Serv ...
试玩Aid Learning
前言记录一下步骤下载安装 github官网切换源 ## 打开Terminal复制回车即可 cd /etc/apt/&& cp sources.list sources.list. ...
django 如何在HMTL中使用媒体media_url
django 如何在HMTL中使用媒体media_url中指定的路径第一种: 一. setting.py里,一般图片或者文件上传路径都是是以下设置, MEDIA_URL = '/media/' ...
关于go mod 的使用和goland 配置 go mod
一.关于go modules 1.1 go modules 是go1.11 新加的特性现在已有go 1.13.4 了本人用了就是最新版的 1.2关于modules 官方定义模块是相关Go包的集合. ...
Vue3 如何修改端口
build哪里去了?config哪里去了?配置都消失了? 对比之前Vue2 发现项目目录改动较大找了很久才找到配置文件:node_modules\@vue\cli-service\lib\comma ...
Pytorch学习2020春-1-线性回归
线性回归主要内容包括: 线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素, ...
HC(Histogram-based Contrast) 基于直方图对比度的显著性
HC(Histogram-based Contrast) 基于直方图对比度的显著性来源于: 2011, Global contrast based salient region detection, ...
微信小程序内判断是否关注公众号(JAVA)
微信小程序内判断是否关注公众号(JAVA) 思路来源(第二种): https://blog.csdn.net/Yanheeee/article/details/117295643 /** * 总体思路 ...
题解「2017 山东一轮集训 Day5」苹果树
题目传送门题目大意给出一个 \(n\) 个点的图,每个点都有一个权值 \(f_i\) ,如果 \(f_i=-1\) 表示 \(i\) 这个点是坏的.定义一个点是有用的当且仅当它不是坏的,并且它连的 ...

Python | 实现pdf文件分页

Python | 实现pdf文件分页的更多相关文章

随机推荐

热门专题