使用word和pdf进行仿书编辑的经验
一、问题的提出:
一本书扫描好,要将书中的图片转换为文字版的word文档。
二、问题的分析:
1.文字的提取
2.文字的编排
三、问题的解决
1.如果用的是Adobe Acrobat 8 Professional
那么,扫描好的pdf文档,选定某一页,
文档→OCR文本识别→使用OCR识别文本
弹出识别文本对话框,注意要选择好识别的主要语言
在弹出的对话框中有个编辑按钮,点击“编辑”
弹出一个新的对话框窗体,将OCR识别的主要语言选择为简体中文,
然后确定后退出,在识别文本对话框中选择当前页面进行文本识别
软件自动将该页的图片进行方位校正,然后生成文本附在图片上
只要按下文本选择的图标,在图片上的文字上拉拽,就可选定文字。
选定好文字复制到文本文件中,可以发现识别生成的文字、标点是
每行都隔断好的,但文字和标点有零星的地方是识别错误生成另外的字符,
需要人工校正,在文本文件中校正好后,复制到word文档中。
如果用的是Adobe Acrobat XI Professional中文版
那么,扫描好的pdf文档,右上的菜单导航里有个工具两字
点击一下相关的工具菜单就整列出来,
这列工具菜单里有个文本识别,点一下
可以看到 在本文件中、在多个文件中这两个分支项目
点在本文件中,可以弹出和Adobe Acrobat 8 Professional一样的
识别文本窗口,默认设置是中文(简体),这就不用改了
识别方式和Adobe Acrobat 8 Professional一样。
2.word文档要调整成和原来扫描书籍中的格式,需要进行格式匹配,
比如标题的字体大小、字体类型,行间距、段落前后间距,页面纸张的大
小,一般要经过三页的调整才能定型好整体的格式。
3.注意在word文档中,进行段落属性的设置,
段落对话框中有个中文版式,记得更改为只打钩一个换行的第一个选项
就是按中文习惯控制首尾字符,其他都不选。
4.可以注意到其实印刷的书中每行的字数有个别与word文档编辑时每行
的字数对不上,要么多要么少,那么,就需要选定行进行文字属性的更改。
如果编辑时的文字,原来一行的文字符号变成两行,就选定好这些数量的文字
符号,右键选择字体,在弹出的字体对话框中选择高级选项卡,字符间距选择
紧缩,按照实际进行磅数的调整,一般是0.1磅就可以调整到位,个别要0.2磅
或者0.3磅,同理原来一行的文字符号吸纳了下一行的文字符号,则字符间距
选择加宽,把下一行的文字符号挤出这一行,一般也是0.1磅就可以调整到位,
个别要0.2磅或者0.3磅。
5.利用pdf打印机打出不同页面尺寸的书籍pdf文档
一般小本的书籍的尺寸在word文档的纸张大小是
32开(13×18.4 厘米) 即宽度为13厘米,高度18.4厘米
那么在编辑word文档的时候就要在页面设置里把纸张大小设为32开
对应的页边距也要调整好,和原纸书籍一致,比如
上:1.5厘米,下1.5厘米
左:1.3厘米,右1.3厘米
装订线:0厘米
pdf打印机属性里是没有32开纸张类型,要自行添加设定
Adobe PDF文档属性窗口中的Adobe PDF设置
在Adobe PDF页面大小,点添加,自行定义增加纸张类型。
使用word和pdf进行仿书编辑的经验的更多相关文章
- jacob 操作word转pdf
项目需要对上传的word及pdf进行在线预览,因基于jquery的pdf插件,很方面实现在线预览,而word实现在线预览费劲不少,于是想到在进行上传处理时,直接将word转成pdf,在预览时直接预览p ...
- word转pdf时图片质量下降的解决方案__亲测有效
写论文时经常需要将word文档转成pdf文档,通常的做法是word另存为pdf文档,这样很简洁很方面,可是最大的问题是图片质量会大大下降.究其原因,“另存为”选项会压缩图片,以降低pdf文档的大小.解 ...
- jeecms系统使用介绍——通过二次开发实现对word、pdf、txt等上传附件的全文检索
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/76912307 本文出自[我是干勾鱼的博客] 之前在文章<基于Java的门户 ...
- C# Word转PDF/HTML/XML/XPS/SVG/EMF/EPUB/TIFF
一款有着强大的文档转换功能的工具,无论何时何地都会是现代办公环境极为需要的.在本篇文章中,将介绍关于Word文档的转换功能(Word转XPS/SVG/EMF/EPUB/TIFF).希望方法中的代码能为 ...
- C# 将Word转为PDF、XPS、Epub、RTF(基于Spire.Cloud.Word.SDK)
本文介绍通过调用Spire.Cloud.Word.SDK提供的ConvertApi接口将Word转换为PDF.XPS.Epub.RTF以及将Docx转为Doc格式等.调用接口方法及步骤参考以下步骤: ...
- 【源码】Word转PDF V1.0.1 小软件,供新手参考
昨天有一朋友让我帮忙找一款Word转PDF的软件,今天自己捣鼓出点成果封装个Helper供大家使用~ 开源地址:https://github.com/dunitian/WordConvertPDF 软 ...
- java word 转 pdf
这里使用jacob将word转pdf,使用的是jacob.jar import java.io.File;import com.jacob.activeX.ActiveXComponent;impor ...
- C#实现 word、pdf、ppt 转为图片
office word文档.pdf文档.powerpoint幻灯片是非常常用的文档类型,在现实中经常有需求需要将它们转换成图片 -- 即将word.pdf.ppt文档的每一页转换成一张对应的图片,就像 ...
- Aspose 强大的服务器端 excel word ppt pdf 处理工具
Aspose 强大的服务器端 excel word ppt pdf 处理工具 http://www.aspose.com/java/word-component.aspx
随机推荐
- 最新 Windows 10 应用项目模板发布
以下是最新的Visual Studio 2015 Windows 10 应用程序模板. Windows 10中几乎所有的官方应用都遵循这样一个设计模板:在左上方有一个所谓的导航栏.点击该导航按钮,左侧 ...
- 26数据查询的各种小玩法-select 下(必学)-天轰穿sqlserver视频教程
大纲:简单查询-选择数据列,使用字符串,改变列标题,使用数据运算,使用ALL语DISTINCT关键字,使用TOP关键字,排序 优酷超清地址,为了冲优酷的访问量,所以这里只放优酷的地址了,其实其他网站还 ...
- Android之判断当前指定App是否在前台
直接上代码,不多说 //在进程中去寻找当前APP的信息,判断是否在前台运行 private boolean isAppOnForeground() { ActivityManager activity ...
- Visual Studio 2013 无法正常打开项目文件
提示:无法打开 vcxproj 因为此版本的应用程序不支持其项目类型 ,若要打开它 请使用支持此类型项目的版本. 检查 AppData\Roaming\Microsoft\VisualStudio\ ...
- iPhone开发视频教程 Objective-C部分 (51课时)
第一.二章 OC基础语法 iPhone开发教程 第一章 OC基础语法 iPhone开发概述-必看(1.1)http://www.apkbus.com/android-102215-1-1.html ...
- GTD时间管理(3)---项目
一:什么是项目? 一个项目是由多步骤,多阶段组成的,不可能一步到位的. 项目分为可大可小. 魔兽世界这个程序是一个项目,是一个用10年开发的大型项目 搭建一个博客也可以成为一个项目,可以用一天时间去搭 ...
- Linux 中的grep命令单引号,不加任何参数以及双引号的作用
单引号: 可以说是所见即所得:即将单引号内的内容原样输出,或者描述为单引号里面看到的是什么就会输出什么.单引号''是全引用,被单引号括起的内容不管是常量还是变量者不会发生替换. 双引号: 把双引号内的 ...
- (转)create table #temptable 临时表 和 declare @bianliang table ()表变量
在开发过程中,经常会遇到使用表变量和本地临时表的情况.下面是对二者的一个介绍: 1. 为什么要使用表变量 表变量是从2000开始引入的,微软认为与本地临时表相比,表变量具有如下优点: a.与其他变量 ...
- LeetCode:Spiral Matrix I II
Spiral Matrix Given a matrix of m x n elements (m rows, n columns), return all elements of the matri ...
- 修改oracle密码有效期限制
racle11g,静默安装后用户的密码有效期默认设置为180天,180天后密码将失效,oracle会提示要修改密码. 我们项目用的是jdbc连接oracle数据库,没法自动处理oracle的这种密 ...