我相信大家都有过这样的需求,把doc.ppt.excel.pdf.txt中的文本内容提取出来.提取出来的文本内容可用于文档内容的全文索引,文档的基本内容摘要等.在度娘上搜索“如何提取文档内容”,确实有很多demo可以借鉴,但是,很多demo要么是需要付费的jar包,要么提取出的内容不全或者乱码.Java有许多开源工具包可用,尚且还不完美,何况其它一些开发语言如node.golang.ruby.python呢! 如果能有免费的API接口可以调用,那就不管是啥语言了,省时又省心,何乐而不为呢!基于此…
http://club.excelhome.net/thread-970051-1-1.html VBA Dumper 0.1.4.2更新,填补国内同类程序空白 此程序为演示版,可以在无office的环境下Dump出复合文档的VBA代码(Excel\Word\PPT等),每个模块最大Dump长度不超过六百个字符,用于简单判断病毒基本够了.也可以用来恢复受损文件中的vba代码.使用VBA Dumper可以在不打开office文件的情况下检查vba代码,目前的宏病毒杀毒软件基本都是这个路子. 使用方…
前言 以前在实现ListView下拉刷新和上拉加载数据的时候都是去继承原生的ListView重写它的一些方法,实现起来非常繁杂,需要我们自己去给ListView定制下拉刷新和上拉加载的布局文件,然后添加ScrollView和OnTouch监听,设置回调接口获取数据,为了更好的交互体验,我们还不能直接利用setVisibility隐藏显示布局等等一大堆的操作,累都累死了.(题外话:关于下拉刷新在新版的android-support-v4.jar里,其实谷歌已经为我们提供了一个控件叫SwipeRef…
UIButton内部文本和图片的布局是我们日常代码中,不可缺少的部分,按钮默认左边图片右边文本,那要实现左边文本,右边图片,我们该怎么解决呢,上面图片,下面文本又该怎么办呢 其实很简单,今天总结下,目前主要用两种方式,一种就是重写按钮,另一种就是通过setTitleEdgeInsets和setImageEdgeInsets方法解决 下图是按钮默认情况下的图文布局 左边文本,右边图片首先介绍重写按钮吧,新建一个按钮继承UIButton, - (void)layoutSubviews {    [s…
前言 都说nodejs适合制作restful_API,因为它有异步处理能力,能吞吐更多的请求,这一点是大家都认可的.前不久我使用nodejs+express+postgresql搭建了一个restful中间处理平台,感觉express的api在代码量多的时候,显得凌乱.然后我开发了一个能够更好的组织express代码的module,借鉴了一些java中的想法.希望达到一种平衡,一种更优雅的方式组织代码. express 一个express项目的编码流程,大概是几步, 1.初始化app (expr…
文档在线预览的另一种实现方式采用的技术栈是OpenOffice + pdf.js, office文档转换为pdf的工作依然由OpenOffice的服务来完成,pdf生成后我们不再将其转换为其他文件而是直接将pdf文件通过js框架直接展示到web页面,这样相对于方案一的实现少了一层转换,效率会更快,而且pdf.js由mozilla团队维护,不用担心后期维护问题,客户端浏览器不需要安装pdf阅读器插件,唯一的要求是浏览器必须支持html5.这种方案的实现过程是: 通过OpenOffice的服务将of…
在前2篇文章这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧 和这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧!(第二辑)中,大伙热情高涨.再次拿出自己的私货,在.NET平台处理文档相关的开源组件.文档处理在开发中是一个非常常见的任务了,例如导出Excel,导出Word,生成PDF报表等等.那今天就看看下面这些.NET开源项目你知道不?如果有用,千万不要忘记推荐哦.同时个人能力有限,希望大家补充. .NET开源目录:[目录]本博客其他.NET开源项目文章目录 本文原文地…
在前2篇文章这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧 和这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧!(第二辑)中,大伙热情高涨.再次拿出自己的私货,在.NET平台处理文档相关的开源组件.文档处理在开发中是一个非常常见的任务了,例如导出Excel,导出Word,生成PDF报表等等.那今天就看看下面这些.NET开源项目你知道不?如果有用,千万不要忘记推荐哦.同时个人能力有限,希望大家补充. .NET开源目录:[目录]本博客其他.NET开源项目文章目录 本文原文地…
C# 提取Word文档中的图片 图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使用C#从word文档中提取图片. 这里我准备了一个含有文字和图片的word文档: 详细步骤与代码: 步骤1:添加引用. 新建一个Visual C#控制台项目,添加引用并使用如下命名空间: using System; using Spire.Doc; using Spire.Doc.Documents…
摘  要  在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的.为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages ).试验证明,比起其他网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果. 关键词  网页去重算法   特征向量   近似网页   支持向量机 第一部分介绍现有去重算法:第…