不少仪器数据报告输出为Word格式文件,同Excel文件,Word文件doc和docx的存储格式是不同的,相应的解析Word文件的方式也类似,主要有以下方式: 1.通过MS Word应用程序的DCOM接口: 2.WPS Word应用程序的DCOM接口,其他Office应用程序,例如Open Office等: 3.NPOI库: 4.MS Open XML: 5.Spire.Doc库: 实际操作中,MS与Open Office等不同厂家对Word(或泛指Office中的字处理软件文档)的格式定义标准…
不少仪器工作站输出的数据报告文件为PDF格式,PDF格式用于排版打印,但不易于数据解析,因此解析PDF数据需要首先读取到PDF文件中的文本内容,然后根据内容规则解析有意义的数据信息. C#解析PDF文件常用的库有PDFBox和iTextSharp,PDFBox为Java库,通过IKVM使用,因此调用方法.属性等比较变扭. PDFBox解析PDF文本示例: PDDocument doc = PDDocument.load(input); str = new PDFTextStripper().ge…
RTF格式文件大家并不陌生,但RTF文件的编码.解码却很难,因为RTF文件是富文本格式的,即文件中除了包含文本内容,还包含文本的格式信息,而这些信息并没有像后来的docx等采用XML来隔离格式和内容,因此解码很难. 一些仪器的数据报告以RTF格式输出,因为RTF可以使用写字板进行编辑,写字板程序在Windows系统中默认安装,因此输出的RTF格式文件易读写. 解析RTF文件,难以从解码入手,但可以依赖Windows的基础功能实现RTF文本内容的获取,具体而言就是依靠WinForm类库来读取RTF…
不少仪器工作站可以将数据导出为Excel文件,包括97-2003版本的xls文件和2007+的xlsx文件. 采集Excel文件相比采集pdf文件更容易.程序更健壮,毕竟Excel中数据有明确的行.列的定义,利于数据解析. Excel早期的xls文件和后来的xlsx文件的格式不一样,xls是二进制特定格式文件,xlsx是zip压缩包,其中数据使用xml定义.虽然两种文件格式定义不同,但解析文件数据可以通过中间件,因此只要理解了Excel文件的工作簿.sheet页.行.列.单元格等概念即可,无需了…
XPS为微软推出的类似于Adobe PDF的一种文件格式,个人认为XPS很好,但毕竟PDF已经被大家所熟知,因此XPS的使用很少,也少有仪器数据输出为该格式. XPS百度百科:https://baike.baidu.com/item/XPS%E6%A0%BC%E5%BC%8F%E6%96%87%E4%BB%B6 以下代码为XPS文档内容的解析示例: StringBuilder sb = new StringBuilder(); //读取文档 XpsDocument xpsDocument = n…
太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph)(本篇) (二)表格篇(table) (三)样式篇(style) 选你所需即可.下面开始正文. 最近公司的项目,需要在页面上显示word文件的内容.我找了几个前端写法,都没用明白(因为我前端太渣),用起来简单的要么收费,要么加了水印.那怎么办捏? 唉,还是按毛主席说的,自己动手,丰衣足食吧! 感谢徒弟给打下的基础,我不用挨个碰壁,直接就选择了python-docx这个库.当然,它也只能解析docx文件,解析不了doc文件.安装…
太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph) (二)表格篇(table) (三)样式篇(style)(本篇) 选你所需即可.下面开始正文. 在前两篇中,我们已经解析出了paragraph和table,那么,如何把它们按顺序组合在一起呢?毕竟,一般的word不会固定把表格和文字分开,而是混排在一起的. 答案是,没办法. 可能有的同学在看过前两篇之后,已经亲自动手去玩python-docx,并且发现了style这个东西.我本来也发现了.使用 docx.styles 可以获取…
一.概述 使用pdfbox可生成Pdf文件,同样可以解析PDF文本内容. pdfbox链接:https://pdfbox.apache.org/ 二.PDF文本内容解析 File file = new File(filePath); PDDocument doc = PDDocument.load(file); PDFTextStripper stripper = new PDFTextStripper(); String fileContent = stripper.getText(doc);…
Apache POI - HWPF and XWPF - Java API to Handle Microsoft Word Files http://poi.apache.org/document/ http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.poi/poi-scratchpad/3.7 http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.…
太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph) (二)表格篇(table)(本篇) (三)样式篇(style) 选你所需即可.下面开始正文. 上一篇我们讲了用python-docx解析docx文件中的段落,也就是paragraph,不过细心的同学可能发现了,只有自然段是可以用paragraph处理的,如果word中有表格,根本读都读不到.这是正常的,因为表格在docx中是另一个类.   一个word文档中大概有这么几种类型的内容:paragraph(段落),table(表…