需求:
1)从PDF里快速提取目录;
2)不想下载任何软件。

我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录

之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。

用来测试的目录图片示意:

一、用现有常用软件直接导出目录

这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。

1 (推荐指数☆)QQ OCR文字识别

星星点
1)即开即用
2)中文的字形识别特别准确

扣星星点
1)没办法放后台运行
2)数字识别特别差,
3)格式特别乱,用来做目录提取要调整很久

识别结果:

摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . . .
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . . i . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ..................…..。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
….............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P· . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

2 (推荐指数0星)GPT4 图像识别

GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。
它胡言乱语,恼火!

3 (推荐指数0星)GPT4 AI PDF插件

原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!
压根不支持扫描PDF的识别,game over!

4 (推荐指数☆☆☆☆)QQ+GPT3.5结合

上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。
但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。

所以可以这样:先QQ自动识别,然后一键复制给GPT,说:

订正这个目录:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . . .
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . . i . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ..................…..。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15
….............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P· . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

输出的结果GPT3:

又快又好啊!!!
扣一颗星是因为它没有弥补出部分丢失的页码信息。

5 (推荐指数☆☆☆☆)QQ+GPT4结合

同样,我还测试了GPT4的结果。
GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。

但是优点是它补全了所有丢失的页码信息!太强了。

输出的结果GPT4:

总之,最好的方式是QQ识别+GPT3.5。

扩展阅读:【工具】FreePic2PDF+PdgCntEditor|PDF批量添加书签(Windows)

【记录】PDF|中英文PDF扫描版目录提取(一、QQ+GPT)的更多相关文章

  1. Web性能权威指南 PDF扫描版​

    Web性能权威指南是谷歌公司高性能团队核心成员的权威之作,堪称实战经验与规范解读完美结合的产物.<Web性能权威指南>目标是涵盖Web开发者技术体系中应该掌握的所有网络及性能优化知识.全书 ...

  2. 网页游戏开发秘笈 PDF扫描版

    精选10种常见的游戏类型,透过典型实例,深入剖析游戏引擎及工具的选用技巧,详细讲解每款游戏的制作过程,为快速掌握网页游戏开发提供系统而实用的指南. 网页游戏开发秘笈 目录: 译者序  前 言  导 言 ...

  3. 【分享】改变未来的九大算法[pdf][清晰扫描版]

    [下载地址]http://www.colafile.com/file/1179688 图书信息:中文名: 改变未来的九大算法作者: 约翰·麦考密克译者: 管策图书分类: 软件资源格式: PDF版本: ...

  4. HTML5+CSS3+jQuery Mobile轻松构造APP与移动网站 (陈婉凌) 中文pdf扫描版

    <HTML5+CSS3+jQuery Mobile轻松构造APP与移动网站>以HTML与CSS为主,配合jQuery制作网页,并搭配jQueryMobile制作移动网页,通过具体的范例从基 ...

  5. Web界面设计(Designing Web Interfaces中文版) (美)斯科特 pdf扫描版​

    Web界面设计是由Bill Scott编著.电子工业出版社出版的一部图书,在Web已经进入崭新的时代的今天,界面的设计显得非常重要,本书就是基于独一无二的Web环境下.在创建丰富体验的过程中设计Web ...

  6. Web开发入门经典:使用PHP6、Apache和MySQL 中文pdf扫描版​

    通过学习本书,读者很快就能明白为什么PHP.Apache和MySQL会迅速成为开发动态网站最流行的方式,本书将为读者理解这3个核心组件如何独立工作和协同工作奠定良好的基础,引导读者充分利用它们提供的各 ...

  7. 新编html网页设计从入门到精通 (龙马工作室) pdf扫描版​

    新编html网页设计从入门到精通共分为21章,全面系统地讲解了html的发展历史及4.0版的新特性.基本概念.设计原则.文件结构.文件属性标记.用格式标记进行页面排版.使用图像装饰页面.超链接的使用. ...

  8. HTML5移动开发即学即用(双色) 王志刚 pdf扫描版​

    HTML5已经广泛应用于各智能移动终端设备上,而且绝大部分技术已经被各种最新版本的测览器所支持:逐一剖析HTML5标准中包含的最新技术,详细介绍了HTML5新标准中提供的各种API,各种各样的应用实例 ...

  9. HTML5和CSS3实例教程 中文版 高清PDF扫描版

    HTML5和CSS3实例教程共分3部分,集中讨论了HTML5和CSS3规范及其技术的使用方法.首先是规范概述,介绍了新的结构化标签.表单域及其功能(包括自动聚焦功能和占位文本)和CSS3的新选择器.接 ...

  10. HTML5 Canvas游戏开发实战 PDF扫描版

    HTML5 Canvas游戏开发实战主要讲解使用HTML5 Canvas来开发和设计各类常见游戏的思路和技巧,在介绍HTML5 Canvas相关特性的同时,还通过游戏开发实例深入剖析了其内在原理,让读 ...

随机推荐

  1. startup_stm32f10x_xx.s 启动代码文件的选择

    网上查到的各个文件的解释是: startup_stm32f10x_cl.s 互联型的器件startup_stm32f10x_hd.s 大容量startup_stm32f10x_hd_vl.s 大容量s ...

  2. CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比

    CSnakes 是一个用于在.NET项目中嵌入Python代码的工具,由.NET源生成器和运行时组成,能够实现高效的跨语言调用,Github:https://github.com/tonybalone ...

  3. 数字先锋 | 天翼云xDeepSeek,赋能东莞开启智慧政务新篇章!

    人工智能浪潮奔涌 DeepSeek堪称"全能战士" 在各行各业疯狂"上分" 特别是在政务领域 其以强大的智能问答 公文写作.数据分析等能力 为政务服务按下了&q ...

  4. 湖北电信创维E900-S机顶盒-精简系统装当贝桌面

    一.打开机顶盒进入本地配置,输入密码:6321,然后打开其他设置-管理应用程序,连续按遥控器方向右键5次左右,这时会出现[USB调试]并打开: 二.从电脑里下载好当贝市场(点击立即下载).当贝桌面(点 ...

  5. Linux - VMware workstation安装虚拟机

    Step1:新建虚拟机 主页/文件 >> 创建新的虚拟机 新建虚拟机向导 典型(推荐)(T) 通过几个简单的步骤创建Workstation虚拟机 自定义(高级)(C) 创建带有SCSI控制 ...

  6. DW002 - 数据仓库模型设计

    数据模型 关系模型与维度模型 常见数据模型设计方法 数据模型 1. 什么是数据模型 模型 - Model 模型是指对于某个实际问题或者客观事物.规律进行抽象后的一种形式化表达方式 比如地图.建筑设计沙 ...

  7. 【BUUCTF】Hack World 1

    [BUUCTF]Blacklist (SQL盲注) 题目来源 收录于:BUUCTF CISCN2019 华北赛区 Day2 Web1 题目描述 纯粹的SQL注入题 当输入1时,返回字符串:Hello, ...

  8. Halcon学习教程(二) 测量量测相关(点到线距离,线到线距离,轮廓线距离,一维测量,圆形测量,矩形测量等)

    原文作者:aircraft 原文地址:https://www.cnblogs.com/DOMLX/p/18740576 本篇讲一些测量用到的算子和实例,想了解更多就得去看看halcon实例里一维测量里 ...

  9. 帝国CMS下iframe标签无法引入视频,ueditor编辑器中html标签无法显示问题,设置ueditor默认行高为1.75

    问题描述: 1.帝国cms后台添加优酷视频,使用到iframe,富文本编辑器中使用iframe引入视频后检查发现html代码未出现iframe字样,排查后发现为ueditor限制过滤了部分html代码 ...

  10. LLM生成代码后,如何一键合并到源代码中(FastApply技术研究)

    背景 在大语言模型越来越火的今天,越来越多的应用场景开始使用大语言模型来解决实际问题.而辅助编程可以算是大语言模型应用得最成功的场景之一了.早先的时候,更多使用的还是代码补全的能力,但是现在,各家产品 ...