我觉得修改pdf书签总体来说最方便的方式就是:

　　　　导出pdf书签为文本文件，修改书签文本文件后再导入到pdf中。

1.直接修改pdf书签

　　python中比较好用的pdf处理的库是pymupdf:

pip install pymupdf　　　　　　　　　　　　　　　　# pip安装pymupdf库

　　让人疑惑的是库名是pymupdf，但是导入库要用 "import fitz"

import fitz　　　　　　　　　　　　　　　　　　 　　# 导入pymupdf库
doc = fitz.open("test.pdf")　　　　　　　　　　  # 获取一个pdf对象
toc = doc.get_toc()　　　　　　　　　　　　　　　　# get_toc()方法获取pdf对象的书签
print(toc)　　　　　　　　　　　　　　　　　　　　　 # toc是一个二维的列表。

　　get_toc()方法获取的书签是一个为二维列表。如果pdf中只有一条书签。获取到书签将会是下面的这种形式:

out[1]:
[[1, '目录', 3]]

上面输出的数字1代表的是书签的缩进级别。这个缩进级别数字是最小是1。如果大于1，比如是2，要求上一个书签的缩进仅别必须要小于或者等于2。根据这个规则，第一个书签的缩进仅别必需要是1.
字符串"目录"是书签的名字。
数字3是书签跳转的页码。

　　知道了toc中数据的意义，我们就可以直接按需要修改书签:

toc[0][1] = 'test'　　　　　　　　　　　　　　 　　# 将书签名字"目录"修改为”test“
out[2]:
[[1, 'test', 3]]　　　　　　　　　　　　　　　　　 # 从终端输出可以看出toc中的数据已经修改成功了
doc.set_toc(toc)　　　　　　　　　　　　　　　　　 # 将修改后的书签数据导入到pdf对象中。
　　　　　　　　　　　　　　　　　　　　　　　　　　　# set_toc()方法具体说是先删除pdf对象的书签数据，再导入给定的书签数据

doc.saveIncr()　　　　　　　　　　　　　　　　　　 # 保存修改到本地pdf文件中，不需要指定路径。

2. 导出pdf书签

　　如果pdf中书签很多，直接在命令行中操作很麻烦。最好导出数据为文本文件，在文本文件上手动修改文本文件。又因为书签数据是一个"表格"，即二维列表，比较好的方式是导出为csv格式的文件。

import csv
with open ("toc.csv","w",newline="") as f:
　　writer=csv.writer(f,delimiter=";")　　　　　　　　　　　　　　　　　　 # 在csv中指定用”;“分隔数据
　　writer.writerows(toc)　　　　　　　　　　　　　　　　　　　　　　　　　　# 将一个二维列表一次写入到csv文件中。注意是writerows而不是writerrows。

　　上面代码导出的文件，类似下面的形式:

1;起步;12

2;Git 简史;16

2;Git 基础;16

2;命令行;19

　　书签的缩进仅别不是很直观，不方便修改。最好稍微修改一下代码用四个空格代表缩进:

with open ("toc.csv","w",newline="") as f:
　　writer=csv.writer(f,delimiter=";")
　　for i in toc:
　　　　i[0] = "    "*(i[0]-1)　　　　　　　　　　　　　　　　　　　　　　# 将缩进的数字转换成空格。如果缩进是1，没有空格。如果是2，将2转换成4个空格，以此类推

　　writer.writerows(toc)

　　这样。导出的csv文件是下面这种形式，缩进变得很直观:

;起步;12

    ;Git 简史;16

    ;Git 基础;16

    ;命令行;19

　　更进一步，我们也可以删除第一个“;”，但是没有多大必要。

3. 修改书签文本文件

3.1 修改书签的缩进级别

　　直接修改就好了。但还是有一点技巧。

　　一般的pdf，我们只需要两个级别的缩进就好了。比如说:pdf中有很多章，需要将这些章设为一级书签;每章中有很多小节，将章中的节设为二级书签。

　　此时我们先给每个行前面插入四个空格，然后再删除不需要的缩进。因为章的数目总比节的数目要少。这些都能通过正则替换直接完成，比如在vim中:

:s/^/    ^/g　　　　　　　　　　　　　　# 在每行前面插入四个空格
:s/^\s\+\(;第*\+章\)/\1/g　　　　　　 # 删除部分缩进

3.2 修改书签跳转页码

　　比较常见的情况是，需要将每个书签跳转的页码增加或者减少一个数字。此时，在vim中，可以用n+ctrl+a为每行的第一个数字增加n,n+ctrl+x为每行的第一个数字减少n。也可以在导入书签时在脚本中处理。

　　比如在豆瓣读书上，我们复制了一本书的目录如下:

第一章 性别“女” 001

消失的声音 003

女孩的游戏 013

让我看见你 022

美丽的脆弱 029

　　上面的页码数字都是"正文页码”，但是正文的第一页常常不是pdf的第一页，此时就需要将上面的页码数字都增加一个固定数字。

3.3 修改复制而来的书签文本。

　　比如我们修改将前面从豆瓣读书上复制来的目录，具体操作步骤是:

先在每一行前面增加一个“;” 。在vim中是执行:s/^/;/g
在后面的数字前面增加一个分号。:s/$\d\+$$/;\1/g。直接将空格替换成分号不可行，因为书签名字中间也有空格。
修改书签跳转页码，每个页码增加一个数字。参看前面。
修改缩进。参看前面。

　　我们复制而来的书签千差万别，需要根据实际情况进行修改。

4. 导入书签数据

第一个问题就是，为了直观看到缩进，我们将代表缩进的数字改为了空格。我们需要在导入书签前将这些空格转换成一个数字，或者导入的时转换成数字，才能导入到pdf中。
其次，用csv库读取csv文件为一个列表，一般会将所有字段都视作为一个字符串。pandas读取csv比较方便也更智能，如果csv中某一列所有数据都是数字，将自动视该列为数字而不是字符串。

　　因为前面用的csv库，所以导入数据我们也用csv库。

with open(toc.csv,"r") as f:
    reader = csv.reader(f,delimiter = ";")
　　toc=[]　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 # 定义一个空列表,用来存储书签数据
　　for i in reader :
　　　　toc.append(i)　　　　　　　　　　　　　　　　　　　　　　　　　　　　# 在列表尾部插入数据
　　for i in toc :　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 # 处理toc中数据，如将一些字符串转为数字
　　　　i[2] = int(i[2])　　　　　　　　　　　　　　　　　　　　　　　　　　 # 将每行的第三个字段转换成一个数字
　　　　i[0] = int(i[0].count(" ")/4+1)　　　　　　　　　　　　　　　　　 # 如果toc.csv中的空格没有转换成一个数字执行这一步转换
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　# 统计第一个字段的空格数目，每四个空格将缩进数字加1

导入书签的完整代码:

import fitz

import os

import csv

# 默认书签文本文件文件名是"out_toc.txt"
# out_toc.txt中每一行三个字段，第一个字段用每四个空格代表书签的缩进+1
# 默认out_toc.txt和pdf文件在同一目录
# 运行脚本，会提示输入pdf文件路径，可以输入相对路径和绝对路径

def pdf_path():

    pdf=input("输入pdf路径:")

    if pdf[0] == "~" :

        pdf_path = "/home/menghua"+pdf.replace("~","")

    elif pdf[0] == "." :

        pdf_path = os.getcwd() + pdf.replace(".","")

    elif pdf[0] != "/" :

        pdf_path=os.getcwd() + "/" + pdf

    else :

        pdf_path=pdf

    if os.path.exists(pdf_path)  and pdf_path[-3:] == "pdf" :

        print(pdf_path)

        return (pdf_path)

    else :

        print("pdf文件不存在:"+pdf_path)

        return(0)

if __name__ == "__main__":

    pdf_path = pdf_path()

    if pdf_path == 0:

        os._exit()

    toc_path = os.path.dirname(pdf_path) + "/" + "out_toc.txt"

    if os.path.exists(toc_path):

        with open(toc_path,"r") as f:

            reader = csv.reader(f,delimiter = ";")

            toc=[]

            for i in reader:

                toc.append(i)

            for i in toc :

                i[0] = int(i[0].count(" ")/4+1)

                i[2] = int(i[2])

    else :

        print("书签文件(" + "out_toc.txt" + ")不存在。")

    doc = fitz.open(pdf_path)

    doc.set_toc(toc)

    #保存修改

    doc.saveIncr()

python:修改pdf的书签的更多相关文章

C# 读取PDF多级书签
在PDF中,书签作为一种导航的有效工具,能帮助我们快速地定位到文档中的指定段落.同时,书签也能让人对文档结构一目了然,在某种程度上也可作为目录使用.对于C#操作PDF中的书签,在上一篇文章中介绍了具体 ...
使用iTextSharp修改PDF文件（一）
这个iTextSharp确实是个好东西,可以创建.读取PDF格式的文档,虽然我的需求比较简单,但我首先还是基本上.完整地看完了它的相关文档,不喜欢英文的同志,可以搜索一篇<用C#制作PDF文件全 ...
SQL 横转竖、竖专横（转载）使用Dapper.Contrib 开发.net core程序，兼容多种数据库 C# 读取PDF多级书签 Json.net日期格式化设置 ASPNET 下载共享文件 ASPNET 文件批量下载递归，循环，尾递归利用IDisposable接口构建包含非托管资源对象《.NET 进阶指南》读书笔记2------定义不可改变类型
SQL 横转竖 .竖专横 (转载) 普通行列转换问题:假设有张学生成绩表(tb)如下: 姓名课程分数张三语文 74 张三数学 83 张三物理 93 李四语文 74 李四数学 84 ...
疯狂Python讲义PDF高清完整版免费下载|百度网盘
百度网盘:疯狂Python讲义PDF高清完整版免费下载提取码:uzba 内容简介 <疯狂Python讲义>既是一本适合初学者入门Python的图书(一个8岁的小朋友在未出版前已学习了本书 ...
用Python去除PDF水印
今天介绍下用 Python 去除 PDF (图片)的水印.思路很简单,代码也很简洁. 首先来考虑 Python 如何去除图片的水印,然后再将思路复用到 PDF 上面. 这张图片是前几天整理<数据 ...
python压缩pdf(指定缩放比例)
python压缩pdf(指定缩放比例) 原理 pdf文件处理使用https://pymupdf.readthedocs.io/en/latest/index.html库可以轻松实现,该库的官方说明文档 ...
Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
翻译文章“AST 模块：用 Python 修改 Python 代码”---！！注意ironpathyon未实现此功能
https://github.com/upsuper/blog/commit/0214fdd084c4adf2de2ed9912d644fb59ce13a1c +Title: [翻译] AST 模块: ...
python制作pdf电子书
python制作pdf电子书准备制作电子书使用的是python的pdfkit这个库,pdfkit是 wkhtmltopdf 的Python封装包,因此在安装这个之前要安装wkhtmltopdf 安 ...
怎么修改PDF文档图片内容
我们想要修改PDF文件的时候应该怎么做呢,PDF文件不同于其他的文件,PDF文件的编辑需要借助PDF编辑器才能够对文件进行编辑修改,那么要怎么修改PDF文档图片内容呢,有许多的小伙伴都想知道该怎么做, ...

随机推荐

Redis - 数据类型映射底层结构
简介从数据类型上体现就是,同一个数据类型,在不同的情况下会使用不同的编码类型,底层所使用的的数据结构也不相同. 字符串对象字符串对象的编码可以是 int.raw 和 embstr 三者之一. em ...
几种常见的Python数据结构
摘要:本文主要为大家讲解在Python开发中常见的几种数据结构. 本文分享自华为云社区<Python的常见数据结构>,作者: timerring . 数据结构和序列元组元组是一个固定长 ...
张量（Tensor）、标量（scalar）、向量（vector）、矩阵（matrix）
张量(Tensor):Tensor = multi-dimensional array of numbers 张量是一个多维数组,它是标量,向量,矩阵的高维扩展 ,是一个数据容器,张量是矩阵向任意维度 ...
Llinux系统(Centos/Ubuntu/Debian)弹性云系统盘扩容方法
警告: 1.调整过分区管理方式的,例如lvm管理方式,请忽略此教程. 2.ubuntu18系统暂不支持脚本扩容,请手动扩容,参看下面ubuntu18部分,用parted操作脚本自动处理(推荐) SS ...
Wolai 使用教程：嵌入小组件库，打造精美、强大的知识库主页
Wolai /我来云笔记在 2022.7.11 日的更新中,支持嵌入包括 NotionPet.芦笋.Replit 等在内的第三方应用.感谢 Wolai 云笔记官方对于 NotionPet 的支持. 趁 ...
2023-04-05：做甜点需要购买配料，目前共有n种基料和m种配料可供选购。制作甜点需要遵循以下几条规则：必须选择1种基料；可以添加0种、1种或多种配料，每种类型的配料最多添加2份，给定长度为
2023-04-05:做甜点需要购买配料,目前共有n种基料和m种配料可供选购. 制作甜点需要遵循以下几条规则: 必须选择1种基料:可以添加0种.1种或多种配料,每种类型的配料最多添加2份, 给定长度为 ...
2023-02-28：moonfdd/ffmpeg-go是用go语言绑定ffmpeg的库，目前是github上最好用的库。请用go语言将yuv文件编码为h264文件。
2023-02-28:moonfdd/ffmpeg-go是用go语言绑定ffmpeg的库,目前是github上最好用的库.请用go语言将yuv文件编码为h264文件. 答案2023-02-28: 使用 ...
2022-12-16：给你一个长度为n的数组，并询问q次每次询问区间[l,r]之间是否存在小于等于k个数的和大于等于x 每条查询返回true或者false。 1 ＜= n, q ＜= 10^5 k
2022-12-16:给你一个长度为n的数组,并询问q次每次询问区间[l,r]之间是否存在小于等于k个数的和大于等于x 每条查询返回true或者false. 1 <= n, q <= 1 ...
uni-app Pages.json配置
https://uniapp.dcloud.net.cn/collocation/pages.html pages.json 文件用来对 uni-app 进行全局配置,决定页面文件的路径.窗口样式.原 ...
Java基础--数据结构
数据结构 Java工具包提供了强大的数据结构.在Java中的数据结构主要包括以下几种接口和类: 枚举(Enumeration).位集合(BitSet).向量(Vector).栈(Stack).字典(D ...

python:修改pdf的书签