知识管理系统Data Solution研发日记之十 海量Office文档搜索

 

经过前面两篇文章的介绍,《分享制作精良的知识管理系统 博客备份程序 Site Rebuild》和《分享制作精良的知识管理系统 SQL Server文档数据库配置 完美实现博客文章的的下载,存储和浏览》,你所喜欢的博客内容已经下载到了自己的本机磁盘中,如下图所示的,海量的文档知识库,已经存在于您的电脑中

这么多文档,你当然可以根据自己的喜好来查看,但是,如何在这么多的文档中,搜索出您所需要的文章内容,这是迫切需要解决的问题。

从技术角度来说,文档已经保存到SQL Server服务器中,运用SQL Server 的Full text search技术,可是实现文档检索。这适用于文档保存到服务器中的一种情况。如果您不喜欢把文档存到数据库中,则应该阅读下面的文章来找到答案。

关于如何Office 系列的文档中搜索,已经有很多很好的解决方案。我们经常遇到的是,在一个Word文档中搜索,而这里要实现的是,在一批的WORD文件中搜索,这一点的转变带来了巨大的麻烦。网络上,推荐的软件是Wordpipe-v5.6.5,实现在一批Office文档中搜索。我在这里推荐的程序是Copernic.Desktop.Search.Corporate。你知道的原因之一是,好用,绿色,又可以有永久使用权,所以我推荐它。

启动程序,它的主界面效果如下,可以搜索桌面中的任何文档,包括图片,视频,邮件。

到Tools中设置我们存放文档的路径,在我的磁盘中是E:\Document

就这样,然后就是等待它在系统的空闲时间对文档建立索引,以方便查找。这个过程消耗的时间会比较长,请耐心等待。

有了这么好的工具,管理海量的Office文档不成问题。Data Loader也考虑到了软件版权的原因,增加Index Builder搜索工具,基本原理是使用Primary Interop Assembly对Office文档进行操作,效率和可用性肯定比不上专业的软件。

Data Loader也会集成自己的文档搜索器,实现在对数据库服务器中的文档搜索和本机磁盘文件的搜索。对于搜索服务器文档,可选择SQL Server 内置的Full-text search。对于本机磁盘中的文档,可选择Lucene这样的第三方类库型实现搜索。这里有一个例子程序,演示如何使用Lucene.NET实现本机磁盘文件的搜索。

Desktop Search Application: Part 1http://www.codeproject.com/KB/office/desktopsearch1.aspx  效果是这样的

请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。

海量Office文档搜索的更多相关文章

  1. OFFICE文档(DOC,XLS,PPT)打开报错的解决办法!

    一般情况下,打开OFFICE文档报错都是因为模板文件出错!! 至于为什么会出错这个问题不好说,可能是不正确关闭文档等等,重装OFFICE也不一定能解决问题! 出现这种情况一般是所有的Word文档或者E ...

  2. 【.net 深呼吸】导出 Office 文档中的图片

    我们常用的 Office 文档其实就三种——Word.Excel.PowerPoint,分别对应的扩展名为:.docx..pptx..xlsx. 许多教程都告诉我们,要提取这些文件中的图片(其实像视频 ...

  3. JAVA实现在线查看PDF和office文档

    一个项目中要做一个在线预览附件(和百度文库差不多)的小功能点,楼主在开发过程中踩了很多坑的同时也总结了一些方法,仅供广大猿友参考,那么要实现这个小功能,目前主要是有如下3种可行的实现方式,下面先说实现 ...

  4. 在线预览-Java 使用 Print2Flash 实现Office文档在线阅读

    近期项目上遇到一个需求是用户上传的文档进行在线浏览,之前有过一篇使用 OpenOffice 将 word 转换成 html 页面进行展示的.现在介绍一个新的工具那就是 Print2Flash .    ...

  5. 文档大师 在Win10 IE11下,文档集画面无法正常显示Word等Office文档的解决方法

    在文档集界面中显示Word文档,是文档大师的一个核心功能. 最近在 Win10 升级到最新版后,发现 无法正常显示Office 文档的问题. 一开始以为是Word版本问题,从2007升级到2016,问 ...

  6. Java实现web在线预览office文档与pdf文档实例

    https://yq.aliyun.com/ziliao/1768?spm=5176.8246799.blogcont.24.1PxYoX 摘要: 本文讲的是Java实现web在线预览office文档 ...

  7. 在禅道中实现WORD等OFFICE文档转换为PDF进行在线浏览

    条件: 安装好禅道的服务器 能直接浏览PDF的浏览器(或通过 安装插件实现 ) 文档转换服务程序(建议部署在另一台服务器上)     实现 原理: 修改禅道的文件预览功能(OFFICE文档其使用的是下 ...

  8. Java实现office文档与pdf文档的在线预览功能

    最近项目有个需求要java实现office文档与pdf文档的在线预览功能,刚刚接到的时候就觉得有点难,以自己的水平难以在三四天做完.压力略大.后面查找百度资料.以及在同事与网友的帮助下,四天多把它做完 ...

  9. Office文档在线预览

    工具说明:通过传入文档的Web地址,即可进行Office文档的在线预览. 使用方式: 在http://office.qingshanboke.com地址后,通过url参数传入您想预览的文件路径. 如: ...

随机推荐

  1. 不要在头文件中使用 using namespace std;

    不要在头文件中使用(using namespace std;).   若你使用了using namespace std;,在某一头文件中,那么包含这些头文件的文件就失去了"namespace ...

  2. 摄像头(5)使用Camera2 替代过时的Camera API

    转自: http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2015/0428/2811.html 概要 从5.0开始(API Level 21 ...

  3. linux 上下文切换带来的影响

    1.保存CPU寄存器中的内容 2.CPU高速缓存中的内容失效 3.重新装载页表,用于给线程程安装一个新的虚拟地址空间,页表缓存失效

  4. APIO2010特别行动队(单调队列、斜率优化)

    其实这题一看知道应该是DP,再一看数据范围肯定就是单调队列了. 不过我还不太懂神马单调队列.斜率优化…… 附上天牛的题解:http://www.cnblogs.com/neverforget/arch ...

  5. datagrid中需要填写长文本,扩展的textarea

    $.extend($.fn.datagrid.defaults.editors, { textarea: {//textarea就是你要自定义editor的名称 init: function(cont ...

  6. CentOS6.5_Nginx1.40_Php5.57_MySQL5.5.35编译安装全记录

    环境说明:CentOS 6.5 32位  PHP Version 5.5.7  mysql version _5.6.16 一.准备工作 配置防火墙,允许防火墙通过22(sshd).80(WEB).3 ...

  7. 新功能:Azure Traffic Manager 嵌套配置文件

    Jonathan Tuliani  Azure 网络 - DNS 和 Traffic Manager 项目经理 我们很高兴地宣布,Azure Traffic Manager 支持 Traffic Ma ...

  8. HDU 4003-Find Metal Mineral(树状背包)

    题意: n个节点的树给出每个边的权值,有k个机器人,求由机器人走完所有节点的最小花费(所有机器人开始在根节点) 分析: 仔细看了几遍例题后,发现这个题的状态很巧妙,先从整体考虑,一个机器人走完所有边回 ...

  9. HDU4614 Vases and Flowers 二分+线段树

    分析:感觉一看就是二分+线段树,没啥好想的,唯一注意,当开始摆花时,注意和最多能放的比大小 #include<iostream> #include<cmath> #includ ...

  10. HDU 5628 Clarke and math Dirichlet卷积+快速幂

    题意:bc round 72 中文题面 分析(官方题解): 如果学过Dirichlet卷积的话知道这玩意就是g(n)=(f*1^k)(n), 由于有结合律,所以我们快速幂一下1^k就行了. 当然,强行 ...