『方案』《女友十年精华》 ORC 图片 文字识别 详解
2008年,遇到一本电子书 《女友十年精华》
觉得很美,想 私藏 这些文章:
>网络搜索文章 —— 没有找到;
>反编译程序 —— 所有文字 都是图片格式(部分文章的 非规律乱码 即为证明,且试用 Adobe Director 反编译 确是图片无疑)
>总计 310篇文章 —— 如何降低 工作复杂度 得到 文本格式的文章?
最后方案:
>写区域截屏软件,将一篇文章 截成多图 (图片文字行 有重复);
>过滤 文章多图 的背景图片(背景图片 会干扰 ORC 的准确率);
>将 文章多图 拆解为 每一行文字一个图片(会有图片文字重复);
>识别 单行文字图片 的 段落起始 和 段落结束;
>识别 单行文字图片,ORC 转换为 文字;
>将 识别后的 文字恢复 段落起始 和 段落结束(当前行文字 抬头空两格,下一行文字 另开段落);
>遍历 识别后的文字行,过滤 重复行;
>最后将文本格式化,把本该属于 一个段落的 取消换行。
看图说话:
>原始运行程序界面

>截屏软件

>图片分析,过滤背景


>拆解单行(前后的 “哈哈哈哈哈”,只是为了 保留 段落格式)






>ORC 图片文字,过滤重复行。(略)
>复原完整 文章图片(无用操作)

>识别最后文本:

>格式化 段落(即为 最后的文本)

>将 文字 转为 HTML (最后使用的格式)
至此结束:
>相关源码 写的很糟糕,各位园友似乎也用不到 ORC(就不开源 啦 —— 需要源码的 再联系我);
>ORC 效果最好的 是 Office 2007(2010 应该也不错)
需要补丁 office2007sp1-kb936982-fullfile-zh-cn.exe 和 office2007sp2-kb953195-fullfile-zh-cn.exe
>不想要 源码,只想要 数据库 的 也可以 再联系我;
舒小龙
2014-07-13 12:02
附上源码下载:http://www.shuxiaolong.com/DoAjax/DownloadHandler.ashx?Number=5IBADAP0MRC
『方案』《女友十年精华》 ORC 图片 文字识别 详解的更多相关文章
- “全栈2019”Java多线程第二十四章:等待唤醒机制详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
- “全栈2019”Java多线程第十六章:同步synchronized关键字详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
- “全栈2019”Java多线程第十四章:线程与堆栈详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
- “全栈2019”Java第九十六章:抽象局部内部类详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- “全栈2019”Java第六十四章:接口与静态方法详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- “全栈2019”Java第六十二章:接口与常量详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- “全栈2019”Java第五十九章:抽象类与抽象方法详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- “全栈2019”Java第五十六章:多态与字段详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- “全栈2019”Java第五十二章:继承与初始化详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
随机推荐
- Linux系统升级更新openssh 7.3p1
放在最前面:鉴于网上爬虫猖獗,博客被盗时有发生,这里需要来个链接,大家请认准来自博客园的Scoter:http://www.cnblogs.com/scoter2008,本文将持续更新 最近绿盟给扫描 ...
- {dockerUI}在服务器上直接安装shipyard/shipyard
$ git clone https://github.com/shipyard/shipyard.git $ cd shipyard/ $ sudo pip install -r requirem ...
- struts2 基本用法
Struts2必需库: commons-fileupload.jar.commons-io-1.3.2.jar.freemarker-2.3.16.jar.javassist-3.7.ga.jar.o ...
- 数据库配置文件 conf.properties
#数据库配置 #mysql hibernate.dialect =org.hibernate.dialect.MySQLDialect jdbc.driverClassName =com.mysql. ...
- 分析循环 Analysis of Loops-------geeksforgeeks 翻译
之前我们讨论了渐进分析,最佳最坏平均情况的分析以及渐进符号.在这一篇中我们分析一下迭代的简单程序. 1. O(1): 如果程序中没有包含任何的循环,递归或者任何的非常数时间的函数,我们就说这个程序的时 ...
- LoadRunner 11 完整卸载
实现彻底删除LR的步骤 打开任务管理器,关闭所有LR相关的进程 请备份好所有LR脚本 进入控制面板-添加与删除,找到HP LoadRunner并点击删除按钮,若出现提示“shared DLLs”消息框 ...
- Facebook或成云领域黑马 冲击亚马逊
[摘要]目前,云计算领域最大的服务是亚马逊AWS,据称此服务年度营收约为100亿美元. 转播到腾讯微博 BI中文站 3月22日报道 如今,多数人认为亚马逊在云计算领域的发展势头无人可档,不过,这个市场 ...
- copy sqlserver中DATE类型的数据转化 CONVERT
copy http://www.cnblogs.com/benwu/p/3939044.html 主要描述的是SQL Server使用convert取得datetime日期数据的实际操作流程,在实际操 ...
- R语言-merge和rbind
rbind 使用方式 合并两个数据集,要求两个数据集的列数相等: rbind(parameter1,parameter2) 1 1 合并多个数据集,各个数据集的列数相等: rbind(paramete ...
- 过滤掉combobox里名称相同的选项
var pname = ""; $('#PartName').combobox({ reload: url, formatter: function (row) {//过滤comb ...