扫描版PDF目录制作指南
目前网上找到的扫描版的电子书往往没有目录,这使得阅读变得非常困难。本文总结我的经验,介绍快速制作扫描版 PDF 目录的方法,以便更轻松地阅读扫描版电子书。
本文首先介绍手动制作目录的方法,之后介绍如何利用 AI 帮助制作目录,接下来介绍了没有目录页的扫描版 PDF 的解决方案。本文提到的软件我都放在网盘分享链接中
https://pan.baidu.com/s/1nQEAKnuNcf2KxrAz473xIA?pwd=1234
目录 OCR
制作目录,首先要对扫描版电子书的目录页进行 OCR。
OCR 软件首推 PDF_XChange,该软件我已放到网盘中。OCR 方式如图所示

其次推荐 ABBYY FineReader PDF 15、Adobe acrcbat dc、扫描全能王等软件。
格式化目录
获得目录 ocr 结果后,可以先通过替换把 .. 全部去掉

之后去除中文字符间的空格。具体方法为打开 word 文档或 WPS,粘贴 OCR 内容,在替换框中选择 使用通配符,在查找内容中输入 ([一-龥]) ([一-龥]),在替换为中输入 \1\2,最后选择全部替换,此时 Word 将会找到所有匹配的两个汉字之间有一个空格的情况,并将空格去除,保留两个汉字。

之后是对照扫描版电子书格式化目录,最终转化成如下格式
第1章 嵌入式计算 1
1.1 引言 1
1.2 复杂系统与微处理器 1
1.2.1 嵌入式算机 2
......
然后用 PdgCntEditor 打开 PDF 文件,粘贴格式化的目录结果,按图所示依次点击

对应操作为
- 自动层次化目录
- 分割页码
- 设置基准页,即书的第1页在PDF文件中的页码
最后按 Ctrl+S 保存,可以看到目录已经制作完成

AI 帮助提取格式化目录
目录页 OCR 的结果已包含目录的全部信息,受到整理目录纯粹是个体力活,因此格式化目录可以借助 AI 完成。
经过我的多次试验,我发现比较好用的 Prompt 如下
您是一名经验丰富的图书管理员,正在参与一个将纸质书籍转化为电子书的项目。您的具体任务是利用OCR技术扫描书籍目录,并对扫描结果进行格式化处理,以制作电子目录。我将向您提供一份目录的OCR扫描结果,您需要根据这些信息输出一个结构化的电子目录。格式化的目录应该包括章节编号、标题和页码。
一个您预期的格式化目录的示例如下:
第3章 应力和应变分析 54
3.1 应力分析 54
3.1.1 应力张量及其分解 54
3.1.2 主应力和应力不变量 56
3.1.3 等斜面上的应力 57
3.1.4 等效应力 58
3.1.5 三向Mohr圆和Lode应力参数 59
3.1.6 应力空间和主应力空间 61
3.2 应变分析 62
3.2.1 位移与应变的关系 62
3.2.2 应变张量的分解和应变张量的不变量 63
3.2.3 等效应变和Lode应变参数 64
3.2.4 应变率张量和应变增量张量 65
参考文献 66
习题 66
第4章 屈服条件 68
4.1 初始屈服条件 68
4.2 两种常用的屈服条件 71
4.2.1 Tresca屈服条件 71
4.2.2 Mises屈服条件 74
4.2.3 两种屈服条件的比较 74
4.2.4 Mises屈服条件的物理解释 76
4.3 屈服条件的实验验证 77
4.4 后继屈服条件 80
参考文献 83
习题 83
第5章 塑性本构关系 85
5.1 弹性本构关系 85
5.2 Drucker公设 87
5.3 加载、卸载准则 92
5.3.1 理想塑性材料的加载、卸载准则 92
5.3.2 强化材料的加载、卸载准则 93
5.4 增量理论(流动理论) 93
5.4.1 概述 93
5.4.2 理想塑性材料与Mises条件相关联的流动法则 94
5.4.3 理想塑性材料与Tresca条件相关联的流动法则 97
5.4.4 强化材料的增量本构关系 99
5.5 全量理论(形变理论) 101
5.5.1 Илъюшин理论 101
5.5.2 简单加载和单一曲线假定 102
5.5.3 简单加载定理 104
5.5.4 塑性本构关系的总结与比较 105
5.6 岩土力学中的Coulomb屈服条件和流动法则 107
参考文献 109
习题 109
请确认您理解任务要求,并准备好接收OCR结果后,回复我“明白了”。然后我将发送OCR扫描的内容给您。
没有目录页的扫描版 PDF
这种情况就非常棘手了,一种方案是使用软件 PDF 补丁丁,如图所示

其原理是识别扫描版 PDF 的 OCR 结果,然后根据字体的大小判断是否是标题,再生成目录。
另一种方案是利用 AI 自动生成。这种方法我也没尝试过,但理论上可行,比如知乎用户层林尽染就利用 AI 分析知乎回答情况。
制作目录之后
之后是电子书的清晰化与压缩,这一步的教程网上有很多,比如玩转pdf之批量优化扫描版PDF书籍的清晰度https://zhuanlan.zhihu.com/p/67762085这篇文章。
最后是电子书的分享,比如可以上传到学校的资源库,如浙江大学课程攻略共享计划
https://github.com/QSCTech/zju-icicles
北大课程资料民间整理
https://github.com/lib-pku/libpku
也可以上传到 Z-Library
https://zh.zlibrary-east.se/
我也把我搜集的电子书都放在网盘中以供分享
https://pan.baidu.com/s/1gaeV_OuJ-zdF9SkOiONvhA?pwd=1234
扫描版PDF目录制作指南的更多相关文章
- kindle】扫描版PDF完美切割六寸
kindle]扫描版PDF完美切割六寸 半夏 2013-11-05 18:36:01 软件来源记不清了..连使用说明的网址都找不到了,自己写一下使用方法大家凑合一下呗~ 软件是大牛写的 ...
- 扫描仪扫描文件处理-ABBYY对扫描版PDF文字加黑加粗、去除背景漂白
1. 设置ABBYY自动歪斜矫正: 2. 设置导出PDF参数: 3. PDF文字加黑加粗.去除背景漂白步骤:3.1 ABBYY - 打开扫描版PDF文档3.2 ABBYY - 编辑图像3.3 等级 - ...
- 《Visual C++开发实战1200例 第1卷》扫描版[PDF]
[内容简介:] <Visual C++开发实战1200例(第1卷)>是“软件开发实战1200例”丛书之一.<Visual C++开发实战1200例(第1卷)>,编程实例的四库全 ...
- kindle看扫描版pdf的解决办法
(1)先把PDF crop (2)转JPEG (3)JPEG根据kindle的屏幕的分辨率,调整JPEG图像大小,kindle whater paper 大小为1448*1072 (4) 最后把j ...
- [100个改变摄影的伟大观念].(英)玛瑞恩.高清扫描版.pdf
下载地址 :https://u253469.ctfile.com/fs/253469-229765365
- Web性能权威指南 PDF扫描版
Web性能权威指南是谷歌公司高性能团队核心成员的权威之作,堪称实战经验与规范解读完美结合的产物.<Web性能权威指南>目标是涵盖Web开发者技术体系中应该掌握的所有网络及性能优化知识.全书 ...
- 批量自动化生成PDF目录标签
所需软件: 1. FreePic2Pdf(网上很容易找到) 2. python3 3. 天若OCR 链接:https://pan.baidu.com/s/1B9dUr3gc0pv0BSHo5QYGsQ ...
- HTML5游戏开发进阶指南 中文pdf扫描版
HTML5游戏开发进阶指南介绍了HTML5游戏开发的一般过程和技巧.全书共分12章,第1章介绍了本书相关的HTML5的诸多新特性,包括在canvas上绘图.播放声音等,另外还引入了子画面页的概念:第2 ...
- HTML5权威指南 中文版 高清PDF扫描版
HTML5权威指南是一本系统学习网页设计的权威参考图书.<HTML5权威指南>分为五部分:第一部分介绍学习本书的预备知识和HTML.CSS和JavaScript的最新进展:第二部分讨论HT ...
- HTML 5与CSS 3权威指南(第2版·上册) 中文pdf扫描版
HTML5与CSS3权威指南(第2版·上册)已经成为HTML 5与CSS 3图书领域的一个标杆,被读者誉为“系统学习HTML 5与CSS 3技术的最佳指导参考书之一”和“Web前端工程师案头必备图书之 ...
随机推荐
- WebStorm2023安装prettier并生效
1.首先去File > Settings > Plugins 里下载并install插件 Prettier 2.在settings里搜索prettier,按图片所示设置一下Apply 3. ...
- JUC并发编程学习笔记(一)认知进程和线程
进程和线程 进程 一个程序,如QQ.exe,是程序的集合 一个进程往往可以包含多个线程,至少包含一个 java默认有两个线程,GC垃圾回收线程和Main线程 线程:一个进程中的各个功能 java无法真 ...
- TVM 中的 Profiler 设计
一.基本用法 首先看 Profiler 的用法: with ms.Profiler() as profiler: # .... 用户代码 print("Tuning Time:") ...
- Spring 对 Junit4,Junit5 的支持上的运用
1. Spring 对 Junit4,Junit5 的支持上的运用 @ 目录 1. Spring 对 Junit4,Junit5 的支持上的运用 每博一文案 2. Spring对Junit4 的支持 ...
- 一些常用但是不好记的css样式
设置滚动条样式 /*定义滚动条宽高及背景,宽高分别对应横竖滚动条的尺寸*/ ::-webkit-scrollbar { width: 10px; /*对垂直流动条有效*/ height: 10px; ...
- ICESat-2 从ATL08中获取ATL03分类结果
ICESat-2 ATL03数据和ATL08数据的分段距离不一致,ATL08在ATL03的基础上重新分段,并对分段内的数据做处理得到一系列的结果,详情见数据字典: ATL08 Product Data ...
- springcloud整合geteway网关服务
geteway网关 1. 什么是 API 网关(API Gateway)分布式服务架构.微服务架构与 API 网关在微服务架构里,服务的粒度被进一步细分,各个业务服务可以被独立的设计.开发.测试.部署 ...
- 性能优化陷阱之hash真的比strcmp快吗
最近网上冲浪的时候看到有人分享了自己最近一次性能优化的经验.我向来对性能是比较敏感的,所以就点进去看了. 然而我越看越觉得蹊跷,但本着"性能问题和性能优化要靠性能测试做依据",我不 ...
- golang 切片原理面试题
package main import "fmt" func main() { var s = make([]int, 0, 10) _ = append(s, 1,2,3) fm ...
- foxy rviz2 "rviz_common/Time"报错问题
报错内容 The class required for this panel, 'rviz_common/Time', could not be loaded. Error: According to ...