【记录】PDF|中英文PDF扫描版目录提取(一、QQ+GPT)
需求:
1)从PDF里快速提取目录;
2)不想下载任何软件。
文章目录
我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录。
之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。
用来测试的目录图片示意:

一、用现有常用软件直接导出目录
这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。
1 (推荐指数☆)QQ OCR文字识别
星星点:
1)即开即用
2)中文的字形识别特别准确
扣星星点:
1)没办法放后台运行
2)数字识别特别差,
3)格式特别乱,用来做目录提取要调整很久
识别结果:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . . .
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . . i . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ..................…..。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
….............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P· . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .
2 (推荐指数0星)GPT4 图像识别
GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。
它胡言乱语,恼火!

3 (推荐指数0星)GPT4 AI PDF插件
原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!
压根不支持扫描PDF的识别,game over!

4 (推荐指数☆☆☆☆)QQ+GPT3.5结合
上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。
但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。
所以可以这样:先QQ自动识别,然后一键复制给GPT,说:
订正这个目录:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . . .
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . . i . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ..................…..。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
….............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P· . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .
输出的结果GPT3:

又快又好啊!!!
扣一颗星是因为它没有弥补出部分丢失的页码信息。
5 (推荐指数☆☆☆☆)QQ+GPT4结合
同样,我还测试了GPT4的结果。
GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。
但是优点是它补全了所有丢失的页码信息!太强了。
输出的结果GPT4:

总之,最好的方式是QQ识别+GPT3.5。
【记录】PDF|中英文PDF扫描版目录提取(一、QQ+GPT)的更多相关文章
- Web性能权威指南 PDF扫描版
Web性能权威指南是谷歌公司高性能团队核心成员的权威之作,堪称实战经验与规范解读完美结合的产物.<Web性能权威指南>目标是涵盖Web开发者技术体系中应该掌握的所有网络及性能优化知识.全书 ...
- 网页游戏开发秘笈 PDF扫描版
精选10种常见的游戏类型,透过典型实例,深入剖析游戏引擎及工具的选用技巧,详细讲解每款游戏的制作过程,为快速掌握网页游戏开发提供系统而实用的指南. 网页游戏开发秘笈 目录: 译者序 前 言 导 言 ...
- 【分享】改变未来的九大算法[pdf][清晰扫描版]
[下载地址]http://www.colafile.com/file/1179688 图书信息:中文名: 改变未来的九大算法作者: 约翰·麦考密克译者: 管策图书分类: 软件资源格式: PDF版本: ...
- HTML5+CSS3+jQuery Mobile轻松构造APP与移动网站 (陈婉凌) 中文pdf扫描版
<HTML5+CSS3+jQuery Mobile轻松构造APP与移动网站>以HTML与CSS为主,配合jQuery制作网页,并搭配jQueryMobile制作移动网页,通过具体的范例从基 ...
- Web界面设计(Designing Web Interfaces中文版) (美)斯科特 pdf扫描版
Web界面设计是由Bill Scott编著.电子工业出版社出版的一部图书,在Web已经进入崭新的时代的今天,界面的设计显得非常重要,本书就是基于独一无二的Web环境下.在创建丰富体验的过程中设计Web ...
- Web开发入门经典:使用PHP6、Apache和MySQL 中文pdf扫描版
通过学习本书,读者很快就能明白为什么PHP.Apache和MySQL会迅速成为开发动态网站最流行的方式,本书将为读者理解这3个核心组件如何独立工作和协同工作奠定良好的基础,引导读者充分利用它们提供的各 ...
- 新编html网页设计从入门到精通 (龙马工作室) pdf扫描版
新编html网页设计从入门到精通共分为21章,全面系统地讲解了html的发展历史及4.0版的新特性.基本概念.设计原则.文件结构.文件属性标记.用格式标记进行页面排版.使用图像装饰页面.超链接的使用. ...
- HTML5移动开发即学即用(双色) 王志刚 pdf扫描版
HTML5已经广泛应用于各智能移动终端设备上,而且绝大部分技术已经被各种最新版本的测览器所支持:逐一剖析HTML5标准中包含的最新技术,详细介绍了HTML5新标准中提供的各种API,各种各样的应用实例 ...
- HTML5和CSS3实例教程 中文版 高清PDF扫描版
HTML5和CSS3实例教程共分3部分,集中讨论了HTML5和CSS3规范及其技术的使用方法.首先是规范概述,介绍了新的结构化标签.表单域及其功能(包括自动聚焦功能和占位文本)和CSS3的新选择器.接 ...
- HTML5 Canvas游戏开发实战 PDF扫描版
HTML5 Canvas游戏开发实战主要讲解使用HTML5 Canvas来开发和设计各类常见游戏的思路和技巧,在介绍HTML5 Canvas相关特性的同时,还通过游戏开发实例深入剖析了其内在原理,让读 ...
随机推荐
- Luogu P2540 NOIP2015提高组 斗地主 加强版 题解 [ 紫 ] [ 深搜 ] [ 剪枝 ]
斗地主:一步一步推性质就能做出来的剪枝题. 这题思路和小木棒的剪枝思路极其相似,剪枝的角度都差不多. 其实大部分搜索剪枝题都是先观察性质,列出性质后选择几个比较关键且代码好写的性质进行剪枝,特别要注意 ...
- 【整活向】把tidb的文档塞给了基于oceanbase的RAG机器人
最近官方推出了免费试用365天的云数据库,版本也升级到了4.3.支持了向量功能. 官方推出了活动体验AI的动手实战活动, 教程中使用了docker单机版数据库,既然有免费的云数据库,就优先使用云数据库 ...
- 【软件开发】Doxygen使用笔记
[软件开发]Doxygen 使用笔记 Doxygen 是通过代码注释生成文档的事实标准,借用该工具可以将文档内容与代码写在一起方便维护. https://github.com/doxygen/doxy ...
- WPF调用FishSpeech的Demo
写了一个FishSpeech的教程:使用FishSpeech进行语音合成推理 - 天命小猪 - 博客园 研究了一下如何调用服务器API,朗读文本. 经过调研,决定使用NAudio库播放音频.遇到了一些 ...
- Docker 安装详细步骤
一.安装前的准备 确认系统要求 不同的操作系统对 Docker 的支持有所不同,常见的如 Windows.MacOS 和各种 Linux 发行版. 启用虚拟化(如果需要) 对于某些系统,可能需要在 B ...
- Datagrip 破解
题记部分 方法一 [参考链接]:DataGrip 2023.2最新安装使用教程(附激活码,亲测好用)_糖果果爱分享的技术博客_51CTO博客 [软件版本]:datagrip-2023.3.4.win ...
- 初探本地DeepSeek VL + Typescript + FFMPEG:提取视频关键帧分析内容
初探本地DeepSeek VL + Typescript + FFMPEG:提取视频关键帧分析内容 前言 随着人工智能和计算机视觉技术的发展,利用图像识别来分析视频内容已经成为现实.本文的主要目标是: ...
- IDEA 常见设置
一.字体设置 二.自动导入java包和自动清除无用的引用 清除无用的import包手动快捷键:Ctrl + Alt + O 添加引用在代码中光标指向需要添加引用的上,然后使用快捷键:Alt+Enter ...
- Opencv | 图形学 | Mingw64 | 如何正确地用MinGW64编译与配置vscode的Opencv环境
如何正确地用MinGW64编译与配置vscode的Opencv环境 1.前情提要 最近有关于图形学的授课,教授开始布置的上机打码的代码实现作业了.虽说教授为了让我们省心,直接就整了个环境已经配置好的几 ...
- 在Vue 3中创建和使用FormData对象
在Vue 3中创建和使用FormData对象的具体步骤如下: 创建FormData对象:在Vue组件中,首先需要创建一个新的FormData对象.FormData是一个内置的JavaScript ...