C#仪器数据文件解析-PDF文件】的更多相关文章

不少仪器工作站输出的数据报告文件为PDF格式,PDF格式用于排版打印,但不易于数据解析,因此解析PDF数据需要首先读取到PDF文件中的文本内容,然后根据内容规则解析有意义的数据信息. C#解析PDF文件常用的库有PDFBox和iTextSharp,PDFBox为Java库,通过IKVM使用,因此调用方法.属性等比较变扭. PDFBox解析PDF文本示例: PDDocument doc = PDDocument.load(input); str = new PDFTextStripper().ge…
一.概述 使用pdfbox可生成Pdf文件,同样可以解析PDF文本内容. pdfbox链接:https://pdfbox.apache.org/ 二.PDF文本内容解析 File file = new File(filePath); PDDocument doc = PDDocument.load(file); PDFTextStripper stripper = new PDFTextStripper(); String fileContent = stripper.getText(doc);…
最近系统需要一个office文件预览功能 解决方案为使用libreoffice将office文件转换为pdf文件,然后使用swftools将pdf文件转换为swf文件 最后在前台使用flexpaper浏览swf文件,即可实现预览 环境搭建完成,转换也没有问题,但是预览效果看到所有中文全部为乱码 下载转换后的pdf文件也是乱码,由此可见时libreoffice转换这一步出现了问题 服务器转换文件乱码主要是由于没有中文字体导致的,我在ubuntu desktop系统下使用libreoffice打开o…
1. 描述 PDF 文件是一种便携文件格式,是由Adobe公司所开发的独特的跨平台文件格式.PDF文件以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符.颜色以及图象.可移植文档格式,也称为"便携文档格式",是一种电子文件格式.这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的.这一特点使它成为在Internet上进行电子文…
使用Docx4j将Word文件转换为PDF文件: public static void convertDocxToPDF(String docxFilePath, String pdfPath) throws Exception { OutputStream os = null; try { // 加载文件 File docx = new File(docxFilePath); InputStream is = new FileInputStream(docx); WordprocessingM…
1.首先下载最新版的openoffice工具,安装完成之后安装服务,, win+r打开命令提示符 输入cmd,cd C:\Program Files (x86)\OpenOffice 4\program,在该目录下执行语句 soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard:服务安装完成了,查看端口号  netstat -ano|findstr "8100&q…
不少仪器工作站可以将数据导出为Excel文件,包括97-2003版本的xls文件和2007+的xlsx文件. 采集Excel文件相比采集pdf文件更容易.程序更健壮,毕竟Excel中数据有明确的行.列的定义,利于数据解析. Excel早期的xls文件和后来的xlsx文件的格式不一样,xls是二进制特定格式文件,xlsx是zip压缩包,其中数据使用xml定义.虽然两种文件格式定义不同,但解析文件数据可以通过中间件,因此只要理解了Excel文件的工作簿.sheet页.行.列.单元格等概念即可,无需了…
RTF格式文件大家并不陌生,但RTF文件的编码.解码却很难,因为RTF文件是富文本格式的,即文件中除了包含文本内容,还包含文本的格式信息,而这些信息并没有像后来的docx等采用XML来隔离格式和内容,因此解码很难. 一些仪器的数据报告以RTF格式输出,因为RTF可以使用写字板进行编辑,写字板程序在Windows系统中默认安装,因此输出的RTF格式文件易读写. 解析RTF文件,难以从解码入手,但可以依赖Windows的基础功能实现RTF文本内容的获取,具体而言就是依靠WinForm类库来读取RTF…
不少仪器数据报告输出为Word格式文件,同Excel文件,Word文件doc和docx的存储格式是不同的,相应的解析Word文件的方式也类似,主要有以下方式: 1.通过MS Word应用程序的DCOM接口: 2.WPS Word应用程序的DCOM接口,其他Office应用程序,例如Open Office等: 3.NPOI库: 4.MS Open XML: 5.Spire.Doc库: 实际操作中,MS与Open Office等不同厂家对Word(或泛指Office中的字处理软件文档)的格式定义标准…
XPS为微软推出的类似于Adobe PDF的一种文件格式,个人认为XPS很好,但毕竟PDF已经被大家所熟知,因此XPS的使用很少,也少有仪器数据输出为该格式. XPS百度百科:https://baike.baidu.com/item/XPS%E6%A0%BC%E5%BC%8F%E6%96%87%E4%BB%B6 以下代码为XPS文档内容的解析示例: StringBuilder sb = new StringBuilder(); //读取文档 XpsDocument xpsDocument = n…