lucent检索技术之创建索引：使用POI读取txt/word/excel/ppt/pdf内容

在使用lucent检索文档时，必须先为各文档创建索引。索引的创建即读出文档信息（如文档名称、上传时间、文档内容等），然后再经过分词建索引写入到索引文件里。这里主要是总结下读取各类文档内容这一步。

一、之前做过一个小工具也涉及到读取word和excel内容，采用的是com组件的方式来读取。即导入COM库，引入命名空间（using Microsoft.Office.Interop.Word;using Microsoft.Office.Interop.Excel;），然后读代码如下：

读取word

   public string readWORD(object filepath)

        {

            string filename = Convert.ToString(filepath);

            Microsoft.Office.Interop.Word.Application wordapp = new Microsoft.Office.Interop.Word.Application();

            object isreadonly = true;

            object nullobj = System.Reflection.Missing.Value;

            object missingValue = Type.Missing;

            object miss = System.Reflection.Missing.Value;

            object saveChanges = WdSaveOptions.wdDoNotSaveChanges;

            Microsoft.Office.Interop.Word._Document doc = wordapp.Documents.Open(ref filename, ref nullobj, ref isreadonly);

            string content = doc.Content.Text;

            doc.Close(ref saveChanges, ref missingValue, ref missingValue);

            wordapp.Quit(ref saveChanges, ref miss, ref miss);

            wordapp = null;

            return content;

           }

读取excel

用COM读取excel代码，首先是启动excel程序打开工作表，然后取得工作表名，再读取单元格内容，比较繁琐，代码略。

另外，也可以采用OleDB读取EXCEL文件，即把excel作为一个数据库，读出内容返回datatable，代码：

public DataSet ExcelToDS(string Path)

{

string strConn = "Provider=Microsoft.Jet.OLEDB.4.0;" +"Data Source="+ Path +";"+"Extended Properties=Excel 8.0;";

OleDbConnection conn = new OleDbConnection(strConn);

conn.Open();

string strExcel = "";

OleDbDataAdapter myCommand = null;

DataSet ds = null;

strExcel="select * from [sheet1$]";

myCommand = new OleDbDataAdapter(strExcel, strConn);

ds = new DataSet();

myCommand.Fill(ds,"table1");

return ds;

} 

对于EXCEL中的表即sheet([sheet1$])如果不是固定的可以使用下面的方法得到

string strConn = "Provider=Microsoft.Jet.OLEDB.4.0;" +"Data Source="+ Path +";"+"Extended Properties=Excel 8.0;";

OleDbConnection conn = new OleDbConnection(strConn);

DataTable schemaTable = objConn.GetOleDbSchemaTable(System.Data.OleDb.OleDbSchemaGuid.Tables,null);

string tableName=schemaTable.Rows[][].ToString().Trim();

读取ppt

        public string readPPT(object filepath)

        {

            string file = filepath.ToString();

            Microsoft.Office.Interop.PowerPoint.Application pa = new Microsoft.Office.Interop.PowerPoint.Application();

            Microsoft.Office.Interop.PowerPoint.Presentation pp = pa.Presentations.Open(file, Microsoft.Office.Core.MsoTriState.msoTrue, Microsoft.Office.Core.MsoTriState.msoFalse, Microsoft.Office.Core.MsoTriState.msoFalse);

            string content = "";

            foreach (Microsoft.Office.Interop.PowerPoint.Slide slide in pp.Slides)

            {

                foreach (Microsoft.Office.Interop.PowerPoint.Shape shape in slide.Shapes)

                    content += shape.TextFrame.TextRange.Text.ToString();

            }

            pa.Quit();

            pp.Close();

            pa = null;

            return content;

       }

采用COM方式读取效率很低，而创建索引只需取得文档内容，也要求要快速高效获得要索引的文件内容。因此，COM读取不适用于创建索引。POI包含了各类文档所需的类，使用时只需添加相应的类，实现代码也简单，更重要的是能快速地取得文档内容。

二、采用POI

（1）首先下载POI包，在解决方案中通过“管理NuGet程序包”工具来下载；也可以到Apache官网下载。

（2）以下是POI读取各文档内容代码(包含读取txt、word、excel、ppt、pdf)。

        /// <summary>

        /// 读取各类文档内容

      /// </summary>

        /// <param name="filepath">文档路径</param>

        /// <param name="filename">文档名称</param>

        /// <returns></returns>

        public string textToreader(string filepath, object filename)

        {

            string content = null;

            FileInfo file = new FileInfo(filename.ToString());

            switch (file.Extension.ToLower())

            {

                case ".txt":

                    content = readTXT(filepath);

                    break;

                case ".doc":

                    content = readWORD(filepath);

                    break;

                case ".docx":

                    content = readWORDX(filepath);

                    break;

                case ".xls":

                    content = readEXCEL(filepath);

                    break;

                 case ".xlsx":

                    content = readEXCELX(filepath);

                    break;

                case ".pdf":

                    content = readPDF(filepath);

                    break;

                case ".ppt":

                    content = readPPT(filepath);

                    break;

            }

            return content;

        }

        /// <summary>

        /// 读取txt

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readTXT(string filepath)

        {

            StreamReader st = new StreamReader(filepath, Encoding.GetEncoding("gb2312"));

            string content = st.ReadToEnd();

            return content;

        }

        /// <summary>

        /// 读取word2003

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readWORD(string filepath)

        {

            FileInputStream fs = new FileInputStream(filepath);

            HWPFDocument doc = new HWPFDocument(fs);

            string content = doc.getDocumentText();

            return content;

        }

        /// <summary>

        /// 读取word2007

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readWORDX(string filepath)

        {

            FileInputStream fs = new FileInputStream(filepath);

            XWPFDocument XDocument = new XWPFDocument(fs);

            XWPFWordExtractor doc = new XWPFWordExtractor(XDocument);

            string content = doc.getText();

            return content;

        }

        /// <summary>

        /// 读取excel2003

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readEXCEL(object filepath)

        {

            string filename = filepath.ToString();

            FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read, FileShare.ReadWrite);//读取流

            POIFSFileSystem ps = new POIFSFileSystem(fs);

            HSSFWorkbook hwb = new HSSFWorkbook(ps);

            ExcelExtractor extractor = new ExcelExtractor(hwb);

            extractor.FormulasNotResults = true;

            extractor.IncludeSheetNames = true;

            string content = extractor.Text;

            return content;

        }

        /// <summary>

        /// 读取excel2007

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readEXCELX(string filepath)

        {

            //FileStream fs = new FileStream(filepath, FileMode.Open, FileAccess.Read, FileShare.ReadWrite);//读取流

            FileInputStream fis = new FileInputStream(filepath);

            //POIFSFileSystem ps = new POIFSFileSystem(fs);

            XSSFWorkbook hwb = new XSSFWorkbook(fis);

            XSSFExcelExtractor extractor = new XSSFExcelExtractor(hwb);

            string content = extractor.getText();

            return content;

        }

        /// <summary>

        /// 读取pdf

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readPDF(string filepath)

        {

            PDDocument doc = PDDocument.load(filepath);

            PDFTextStripper pdfStripper = new PDFTextStripper();

            string content = pdfStripper.getText(doc);

            doc.close();

            return content;

        }

        /// <summary>

        /// 读取ppt2003

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public string readPPT(string filepath)

        {

            FileInputStream fs = new FileInputStream(filepath);

            SlideShow ss = new SlideShow(new HSLFSlideShow(fs));

            Slide[] slides = ss.getSlides();// 获得每一张幻灯片

            string content = "";

            for (int i = ; i < slides.Length; i++)

            {

                TextRun[] t = slides[i].getTextRuns();// 为了取得幻灯片的文字内容，建立TextRun

                for (int j = ; j < t.Length; j++)

                {

                    content += t[j].getText();

                }

            }

            return content;

        }

注：不同版本的读取对应不同的POI接口程序。

Excel 文件: xls 格式文件对应 POI API 为 HSSF ； xlsx 格式为 office 2007 的文件格式，POI 中对应的API 为XSSF。

Word 文件：doc 格式文件对应的 POI API 为 HWPF； docx 格式为 XWPF。

powerPoint 文件：ppt 格式对应的 POI API 为 HSLF； pptx 格式为 XSLF。

三、使用POITextExtractor类可实现读取office2007兼容以上版本的文档代码：

        /// <summary>

        /// 读取word2007,excel2003/2007,ppt2003/2007

        /// </summary>

        /// <param name="filepath"></param>

        /// <returns></returns>

        public  string ReadOfficeText(string filepath)

        {

            //docx 、pptx 、xlsx、 ppt 、xls

            FileInputStream fs = new FileInputStream(filepath);

            POITextExtractor extractor = ExtractorFactory.createExtractor(fs);

            string text = extractor.getText();

            return text;

        }

但是不知什么原因采用这个方法读取word2003会报错，暂时先用着上面第二点中读取word2003的方法吧。

lucent检索技术之创建索引：使用POI读取txt/word/excel/ppt/pdf内容的更多相关文章

Java操作word文档使用JACOB和POI操作word,Excel,PPT需要的jar包
可参考文档: http://wibiline.iteye.com/blog/1725492 下载jar包 http://download.csdn.net/download/javashixiaofe ...
Java使用POI读取和写入Excel指南
Java使用POI读取和写入Excel指南做项目时经常有通过程序读取Excel数据,或是创建新的Excel并写入数据的需求: 网上很多经验教程里使用的POI版本都比较老了,一些API在新版里已经废弃 ...
Java使用POI读取和写入Excel指南（转）
做项目时经常有通过程序读取Excel数据,或是创建新的Excel并写入数据的需求: 网上很多经验教程里使用的POI版本都比较老了,一些API在新版里已经废弃,这里基于最新的Apache POI 4.0 ...
【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化（转载）
原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_ ...
Java中使用POI读取大的Excel文件或者输入流时发生out of memory异常参考解决方案
注意:此参考解决方案只是针对xlsx格式的excel文件! 背景前一段时间遇到一种情况,服务器经常宕机,而且没有规律性,查看GC日志发生了out of memory,是堆溢出导致的,分析了一下堆的d ...
poi读取写入word【未完，待续】
, [项目实战]Java POI之Word导出经典案例一 Java POI 读取word文件 POI-对于WORD的操作(一)
Java 使用Apache POI读取和写入Excel表格
1,引入所用的包 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxm ...
java使用org.apache.poi读取与保存EXCEL文件
一.读EXCEL文件 package com.ruijie.wis.cloud.utils; import java.io.FileInputStream; import java.io.FileNo ...
zz阿里妈妈深度树检索技术（TDM）及应用框架的探索实践
分享嘉宾:何杰阿里妈妈高级算法专家编辑整理:孙锴内容来源:DataFun AI Talk 出品社区:DataFun 注:欢迎转载,转载请注明出处导读:阿里妈妈是阿里巴巴集团旗下数字营销的大中 ...

随机推荐

Net 项目构建基于Jenkins + Github + Mono 的持续集成环境
Net 项目构建基于Jenkins + Github + Mono 的持续集成环境阅读目录 1 安装 2 配置 3 测试在Redhat enterprise 6.5 的服务器上,为在gutub 上 ...
linux如果不进入window磁盘
最近,在windows8.1下安装ubuntu14.04,在windows沉睡.开放时间和进入选择进入系统选项,当时没有引起重视.他选择进入linux系统.但进入后,发现无法进入windows磁盘,百 ...
如何实现Web聊天
假设你web聊天不知道这件事情,那么最好的方法可能是:openfire+jsjac openfire它是java做开源xmppserver,jsjac它是javascript做开源的Web版本xmpp ...
ACM字符串处理算法经典：字符串搜索
语法:result=strfind(char str[],char key[]); 参数: str[]:在这个源字符串查找操作 key[]:搜索字符串.不能为空字符串回报值: 假设查找成功. ...
不同版本的SQL Server之间数据导出导入的方法及性能比较
原文:不同版本的SQL Server之间数据导出导入的方法及性能比较工作中有段时间常常涉及到不同版本的数据库间导出导入数据的问题,索性整理一下,并简单比较下性能,有所遗漏的方法也欢迎讨论.补充. 0 ...
Extjs grid column里添加button等html标签，并增加点击事件
Extjs里有个actioncolumn,但actioncolumn只能添加一系列button,不能既有字又有button 如何能在column里增加html标签,并给button添加事件呢? 1. ...
Linux 编程学习笔记----动笔makefile档
Befroe Beginning. 在设置暑假的plan ,关于Linux的书籍如今在看的是ALP和Linux高级程序设计(杨宗德)第三版.在计划中的是Linux高级环境编程. 如今開始关于Linux ...
（大数据工程师学习路径）第一步 Linux 基础入门----命令执行顺序控制与管道
介绍顺序执行.选择执行.管道.cut 命令.grep 命令.wc 命令.sort 命令等,高效率使用 Linux 的技巧. 一.命令执行顺序的控制 1.顺序执行多条命令通常情况下,我们每次只能在终 ...
（大数据工程师学习路径）第一步 Linux 基础入门----环境变量与文件查找
环境变量与文件查找本节介绍环境变量的作用与用法,及几种搜索文件的方法.学会这些技巧高效地使用 Linux. 一.环境变量 1.变量要解释环境变量,得先明白变量是什么,准确的说应该是 Shell 变 ...
运用TWaver 3D 矢量图形处理能力
的确,提起TWaver,大家想到的首先是"电信拓扑图组件".事实上.因为其灵活的MVC架构.矢量化设计.方便定制等特点.TWaver能够做的还有非常多.比如房地产行业常见到的&qu ...

lucent检索技术之创建索引：使用POI读取txt/word/excel/ppt/pdf内容

lucent检索技术之创建索引：使用POI读取txt/word/excel/ppt/pdf内容的更多相关文章

随机推荐

热门专题