PDF转EPUB格式电子书经验总结
Remover(这个软件非常easy,稍有电脑操作基础的人打开后就知道怎么做)。另外读者须要对ePubBuilder的操作比較了解。
Acrobat转化为图片制作EPUB,假设是文字形式的扫描电子书,能够使用OCR软件识别以转化成文字(ABBYY
FineReader识别效果相对较好)。但OCR识别中文准确率不够高,部分无法识别的汉字须要人工输入。对于纯文本形式的PDF,直接保存为TXT,然后转换就能够。
假设文字无法复制。能够用PDF
Password Remover解密,详细请參考本文的PDF解密部分。
公司开发而成。PDF
文件是以PostScript语言图象模型为基础,不管在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每个字符、颜色以及图象。
为什么要转为HTML,由于这样的格式全然开源。优点理。出错率低,也和EPUB内部保存格式一致。

文件,另存为(或导出)。选择生成HTML3.2格式(无CSS)。生成的时候可能比較慢。一定要耐心等,不要乱点鼠标。easy死机。依据经验,这里不选择HTML4.0(CSS1.0),虽然后者有CSS的支持,排版按理说会更好。但其实导入ePubBuilder中出错率大增,效果也并不好。
假设真遇到这种严重问题,我也无能为力了。只是幸运地是,仅仅要PDF比較正常。不会出现这种问题。
假设你在上一步打开HTML时感觉排版已经非常好了,并且没有多余的东西。能够直接跳过HTML修正的这些步骤。直接导入到ePubBuilder看效果假设。

替换。“查找模式”为“普通”,“查找目标”为align="center",,“替换为”这个框不填,勾选“循环查找”,然后点击“所有替换”。
假设一次处理多个文件,则所有打开,点击“替换所有打开文件”就可以。
相同。“查找目标”分别改为align="left",align="right",align="justify",所有替换。再次打开HTML时。你会发现原先位置有些混乱的图片看上去好多了。假设有些图片确实是居中更合适,能够不所有替换。或者在后文还会利用Word来改动。



用Chrome和Notepad++同一时候打开HTML文件。在Chrome中右击页眉图片,审查元素。底下会有个显示源代码的窗体,看清width和height后面相应的表示图片宽高的数字,切换到Notepad++,还是使用替换功能。首先把“查找模式”改为“正則表達式”,取消勾选“匹配大写和小写”,勾选“.
matches newline”。其它选项不变,查找目标为
这时,宽度和高度符合要求的图片就没有了。然后在Chrome中刷新,看改动后有没有问题,假设有问题。在Notepad++中撤销更改,然后得针对实际情况详细分析(此处略去)。
一般在Chrome中还能看到一些页眉没有被替换掉,原因是他们的宽高可能与之前的有所差距,这时仅仅需反复前面动作即可了。



用Word打开HTML(不推荐其它软件,由于包括整本书的HTML文件一般非常大,非常多软件打开非常easy死机。如WPS、DreamWeaver。而Word2010在这方面优化的不错,2003版的不清楚),打开后能够全选改动字体等。然后替换,去除少量无法显示的字符乱码。即显示为问号(相同注意尽量不要把原文问号替换没了),替换掉反复出现的站点信息、广告等。还有就是文字形式的页眉页脚(再次强调,注意尽量不要把原文中和页眉相同内容替换没了,Word中能够依据指定字体来替换,这样比較方便),对于不是非常规则的页码如:第x页,这种信息去除,则交给ePubBuilder来完毕。然后用Word把图文中排版不当的进行适度改动,不须要的文件夹则去除,没有严重问题就可以。
注意这里有个问题,假设PDF比較完整,有文件夹,要把文件夹中相应页码删除。就像这样:前言………………………………………………………………1,这个第一页在转换为HTML时就已失去意义了,没有必要保留。

假设出现了错误。请尝试使用浏览器打开另存,用Notepad++删除绿色的<!--..........-->部分。
此时HTML文件会全然又一次生成,但图片可能会被WPS转为png,占用空间通常会增大,不推荐。

。。
。>
然后把图片目录的png图片删除,将压缩后的jpg移进去。
最后用浏览器打开后确认一下。

非常多PDF因为涉及版权问题,採用了一定的加密手段,最严格的一种是打开文件时要求输入password,如图所看到的。对于这样的情况,我们仅仅能使用Advanced
PDF Password Recovery一类软件暴力破解。这里就不具体介绍了,成功率不高。须要大量时间。

Remover一般就能非常快移除加密限制。从而复制当中的文本。

举个样例。假设文中所有“的”字变成了“癿”,我们能够放心的替换回来。由于这个字非常少见。可是假设“的”字所有变成了“白”字,盲目替换会把“明确”替换成“明的”,就出问题了。
对于这种情况,确实没有好办法解决。这一点尤其要注意。

比方以下这边排版精美的摄影电子书,图文并茂,文字在图片中间。转换成HTML后会如何呢?最后如你所料,有些混乱。这个也不好解决。假设你想制作优质的书,那就在Word中手动改动吧^_^。
(非常可惜我实在没有这般的耐心。)
可是,PDF编辑器有个非常有意思的地方。比方说,两段文字原先是一个对象,你在当中插入一个空行,可能它就被分成两个对象了,反过来,两个同一性质的对象(都是文字或都是文字),靠得比較近时。又会自己主动并成一个对象。
奇迹就发生了。试想。下图中如果中间的图和以下的图靠得非常近,宽度也一致,然后就奇迹般地组合成一个对象了,然后输出的HTML中,他们成为了“连体婴儿”。成了一张图片,然后。你就不知道该怎么安排旁边那些描写叙述性的文字了(除非手工又把图片切割开)。所以仅仅好希望读者将就着看吧。哎,PDF转EPUB的无奈在此也可见一斑了。

本文首发自我的个人主页。转载请注明来源:http://www.hainter.com/pdf-to-epub
PDF转EPUB格式电子书经验总结的更多相关文章
- 【电子书分享】Learning PySpark下载,包含pdf、epub格式
<Learning PySpark>电子书下载链接: 链接:http://pan.baidu.com/s/1skAC6LZ 密码:kbse,包括pdf.epub格式: (--学习愉快--)
- Java 解析epub格式电子书,helloWorld程序,附带源程序和相关jar包
秀才坤坤出品 一.epub格式电子书 相关材料和源码均在链接中可以下载:http://pan.baidu.com/s/1bnm8YXT 包括 1.JAVA项目工程test_epub,里面包括了jar包 ...
- epub格式电子书剖析之三:NCX文件构成
ncx文件是epub电子书的又一个核心文件,用于制作电子书的目录,其文件的命名通常为toc.ncx. ncx文件是一个XML文件,该标准由DAISY Consortium发布(参见http://www ...
- Epub格式的电子书——文件组成
epub格式电子书遵循IDPF推出的OCF规范,OCF规范遵循ZIP压缩技术,即epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件(例如 ...
- epub-2格式电子书剖析之一:文档构成
epub格式电子书遵循IDPF推出的OCF规范,OCF规范遵循ZIP压缩技术,即epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件(例如 ...
- TXT电子书格式怎样转换成epub格式
怎样将TXT电子书格式转换成epub格式呢?因为很多时候不同的阅读器所支持的电子书格式是有所不同,所以电子书格式转换的问题,在生活中也是会经常出现的问题.如果我们需要将TXT电子书格式转换成epub格 ...
- 自定义样式,使用浏览器阅读epub格式的电子书
epub格式的电子式一般用专门的阅读器打开,但是如果可以使用浏览器打开,就可以随意更改css了,获得极致的体验效果. 比如可以自定义字体.行间距.背景色.字体大小.缩进等等... 当然,如果您不需要添 ...
- 程序员需要的各种PDF格式电子书【附网盘免费下载资源地址】
程序员需要的各种PDF格式电子书[附网盘免费下载资源地址] 各位,请妥善保存,后期还会有更多更新,如果你有不同的书籍资源或者这里没有你要找的书籍,也可以直接留言,后期我们会继续更新~ Java & ...
- 关于计算机学习的书(doc,mobi,epub,pdf四种格式)
关于计算机学习的书(doc,mobi,epub,pdf四种格式) <html> <body> <div> 21天学通C+ +2016/6/22 18:47文條 30 ...
随机推荐
- bzoj5029: 贴小广告&&bzoj5168: [HAOI2014]贴海报
以后做双精题请至少先跑个数据...输入都不一样... 做法就是离散化大力线段树. 记得在x+1和y-1插点 看这个数据: 1000 121 10050 8080 9950 981 56100 2002 ...
- 为了世界的和平~一起上caioj~~~!
打Call~打Call~打Call~~~!!! 世界毁灭了你在哪???不要犹豫,快去caioj!!! 无比优质的oj,未来大牛的明智之选----就是caioj~~~
- 查找python项目依赖并生成requirements.txt——pipreqs 真是很好用啊
查找python项目依赖并生成requirements.txt 转自:http://blog.csdn.net/orangleliu/article/details/60958525 一起开发项目的时 ...
- 自然语言处理(NLP)书籍资源清单
1. 书籍 入门: <Speech and Language Processing>Dan Jurafsky ,James H. Martin 2. blog及项目
- DBS-PowerDesginer:PowerDesigner最基础的使用方法入门学习
ylbtech-DBS-PowerDesginer:PowerDesigner最基础的使用方法入门学习 1.返回顶部 1. 1:入门级使用PowerDesigner软件创建数据库(直接上图怎么创建,其 ...
- Gym-100935I Farm 计算几何 圆和矩形面积交
题面 题意:就是给你一个圆,和你一个矩形,求面积并,且 保证是一种情况:三角剖分后 一个点在圆内 两个在圆外 题解:可以直接上圆与凸多边形交的板子,也可以由这题实际情况,面积等于扇形减两个三角形 #i ...
- C# How to convert MessageBodyStream to MemoryStream?
通过WCF服务从数据库取文档数据时,返回的是Stream对象,在DevExpress的PDFViewer显示时,用PDFViewer.LoadDocunent(Stream stream);方法时,报 ...
- BZOJ1096: [ZJOI2007]仓库建设(dp+斜率优化)
Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 5790 Solved: 2597[Submit][Status][Discuss] Descript ...
- html5左右滑动页面效果实现
The Demo of h5 slider achiev by Myself 主要思路: 设置一个容器container,然后里面有几个page,获取到屏幕的宽度并将其赋值给page,然后contai ...
- Function 构造器及其对象、方法
一.基础 Function 是一个构造器,能创建Function对象,即JavaScript中每个函数实际上都是Function 对象. 构造方法: new Function ([arg1[, ar ...