利用java从docx文档中提取文本内容

使用Apache的第三方jar包，地址为https://poi.apache.org/

docx文档内容如图：

目录结构：

每个文件夹的名称为日期加上来源，例如：20180618医院，每个docx文档的名称是被试的姓名和来源地，例如：小明-xx社区。

代码如下：

MriReportService.java

package services;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.util.ArrayList;

import java.util.LinkedList;

import java.util.regex.Pattern;

public class MriReportService {

    public static String[] findYearAndSource(File file) {

        String[] result = new String[2];

        // 日期

        String dateStr = file.getParentFile().getName();

//        System.out.println(dateStr);

        if (Pattern.compile("\\d").matcher(dateStr).find()) {

            dateStr = Pattern.compile("-").matcher(dateStr).replaceAll("");

            result[0] = dateStr.substring(0, 8);

        } else {

            result[0] = "";

        }

        // 社区

        String fileName = file.getName();

        if (fileName.indexOf("-") < 0) {

            fileName = Pattern.compile("\\.").matcher(fileName).replaceAll("-.");

        }

        fileName = Pattern.compile("--+").matcher(fileName).replaceAll("-");

        result[1] = fileName.substring(fileName.indexOf("-") + 1, fileName.indexOf("."));

        return result;

    }

    public static LinkedList<File> findAllFile(String rootPath) {

        File file = new File(rootPath);

        LinkedList<File> list = new LinkedList<>();

        if (file.exists()) {

            File[] subDirs = file.listFiles();

            for (File tmpDir : subDirs) {

//                System.out.println(tmpDir);

                for (File tmpFile : tmpDir.listFiles()) {

                    if (tmpFile.isFile() && tmpFile.getName().indexOf("~$") < 0) {

                        list.add(tmpFile);

                    }

                }

            }

        }

        return list;

    }

    public static ArrayList<String> findSub(String docx) {

        String name = "";

        String gender = "";

        String age = "";

        String MRICheck = "";

        String MRIMem = "";

        if (!Pattern.compile("性别：").matcher(docx).find() || !Pattern.compile("年龄：").matcher(docx).find()) {

            try {

                name = docx.substring(docx.indexOf("姓名：") + 3, docx.indexOf("检查项目："));

                MRICheck = docx.substring(docx.indexOf("MRI检查描述：") + 8, docx.indexOf("MRI印象："));

                MRIMem = docx.substring(docx.indexOf("MRI印象：") + 6, docx.indexOf("报告医师："));

            } catch (StringIndexOutOfBoundsException e) {

//                name = "";

            }

        } else {

            name = docx.substring(docx.indexOf("姓名：") + 3, docx.indexOf("性别："));

            gender = docx.substring(docx.indexOf("性别：") + 3, docx.indexOf("年龄："));

            age = docx.substring(docx.indexOf("年龄：") + 3, docx.indexOf("检查项目："));

            MRICheck = docx.substring(docx.indexOf("MRI检查描述：") + 8, docx.indexOf("MRI印象："));

            MRIMem = docx.substring(docx.indexOf("MRI印象：") + 6, docx.indexOf("报告医师："));

        }

        ArrayList<String> result = new ArrayList<>();

        result.add(name);

        result.add(gender);

        result.add(age);

        result.add(MRICheck);

        result.add(MRIMem);

        return result;

    }

}

Main.java

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import java.io.*;

import java.util.ArrayList;

import java.util.regex.*;

import static services.MriReportService.findAllFile;

import static services.MriReportService.findSub;

import static services.MriReportService.findYearAndSource;

public class Main {

    public static void main(String[] args) throws Exception {

        if (args.length < 2) {

            System.out.println("请输入源文件和目标文件的完整路径！");

            System.out.println("举个例子：java -jar docx2csv.jar d:\\核磁报告 d:\\result.csv");

            System.exit(-1);

        }

        String srcPath = args[0];

        String outPath = args[1];

        ArrayList<ArrayList<String>> result = new ArrayList<>();

        for (File tmpFile : findAllFile(srcPath)) {

            String[] yearAndSrc = findYearAndSource(tmpFile);

            FileInputStream fis = new FileInputStream(tmpFile);

            XWPFDocument xdoc = new XWPFDocument(fis);

            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);

            String docx = extractor.getText();

            docx = Pattern.compile("\\s").matcher(docx).replaceAll("");

            ArrayList<String> tmpRe = findSub(docx);

            tmpRe.add(yearAndSrc[0]);

            tmpRe.add(yearAndSrc[1]);

            result.add(tmpRe);

            fis.close();

        }

        write(result, outPath);

    }

    public static void write(ArrayList<ArrayList<String>> result, String outPath) throws IOException {

        BufferedWriter bufferedWriter = new BufferedWriter(new OutputStreamWriter(

                new FileOutputStream(outPath), "GBK"));

        for (ArrayList<String> tmpStrs : result) {

//            System.out.println();

            bufferedWriter.write(tmpStrs.get(0) + "," + tmpStrs.get(1) + ","

                    + tmpStrs.get(2) + "," + tmpStrs.get(3) + ","

                    + tmpStrs.get(4) + "," + tmpStrs.get(5) + ","

                    + tmpStrs.get(6));

            bufferedWriter.newLine();

        }

        bufferedWriter.close();

    }

}

利用java从docx文档中提取文本内容的更多相关文章

如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...
MVC架构下，使用NPOI读取.DOCX文档中表格的内容
1.使用NPOI,可以在没有安装office的设备上读wiod.office.2.本文只能读取.docx后缀的文档.3.MVC架构中,上传文件只能使用form表单提交,转到控制器后要依次实现文件上传. ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
一.从HTML文档中提取链接模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
python 解析docx文档的方法，以及利用Python从docx文档提取插入的文本对象和图片
首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以下面来看下如何解析docx文档:文档格式如下有3个部分组成 1 正文:text文档 2 一个表格. ...
java使用正则从爬虫爬的txt文档中提取QQ邮箱
我的需求是从一堆文档中提取出qq邮箱,写了这篇帖子,希望能帮助和我有一样需求的人,谢谢!...... import java.io.BufferedReader; import java.io.Fil ...
Java 在 Word 文档中使用新文本替换指定文本
创作一份文案,经常会高频率地使用某些词汇,如地名.人名.人物职位等,若表述有误,就需要整体撤换.文本将介绍如何使用Spire.Doc for Java,在Java程序中对Word文档中的指定文本进行替 ...
Java 在PDF文档中绘制图形
本篇文档将介绍通过Java编程在PDF文档中绘制图形的方法.包括绘制矩形.椭圆形.不规则多边形.线条.弧线.曲线.扇形等等.针对方法中提供的思路,也可以自行变换图形设计思路,如菱形.梯形或者组合图形等 ...

随机推荐

Java——关键字instanceof
instanceof 判断一个对象是否为一个类的实例,是为true ,否为false class Animal{} class Cat extends Animal{} /**instanceof 判 ...
Linux文件列表查询ll和ls区别
ll ll查询文件列表,查询结果为当前目录下文件和文件夹的详细信息,包括权限.根目录.用户.创建时间等. ls ls查询出的查询结果只显示当前目录下文件夹和文件名称
vue中template的三种写法
第一种(使用模板字符串)早期字符串拼接年代 <div id="app"></div> new Vue({ el: "#app", tem ...
rfind（）的使用
今天学了一个新函数 rfind 使用: str=123/456 str.rfind('/',1,6) 返回的是从1到6找最后一个/的位置
thymeleaf将对象ModelList数据抛到HTML页面
Java—JSON串转换成实体Bean对象模板
介绍模板需求说明开发中经常遇到前端传递过来的JSON串的转换,后端需要解析成对象,有解析成List的,也有解析成Map的. 依赖 <dependency> <groupId& ...
C# 数据操作系列 - 19 FreeSql 入坑介绍
0. 前言前几天FreeSql的作者向我推荐了FreeSql框架,想让我帮忙写个文章介绍一下.嗯,想不到我也能带个货了.哈哈,开个玩笑-看了下觉得设计的挺有意思的,所以就谢了这篇文章. 简单介绍一下 ...
[JavaWeb基础] 001.简单的JavaWeb代码和Tomcat配置部署
简介: 其实说明白了就是J2EE应用开发,前端可以有很多的展现方式,后端由Java做逻辑运算和数据支撑.适用于创建服务器应用程序和服务,为搭建具有可伸缩性.灵活性.易维护性的商务系统提供了良好的机制. ...
Android简单应用程序破解——runtime.apk
对于<Debugging Android Application>一文中最后附上的练习,我采用了另一种静态方法绕开原有的逻辑去破解.主要的过程如下: 利用apktool将练习的runtim ...
Java 第十一届蓝桥杯省模拟赛无向连通图最少包含多少条边
无向连通图最少包含多少条边题目问题描述一个包含有2019个结点的无向连通图,最少包含多少条边? 答案提交这是一道结果填空的题,你只需要算出结果后提交即可.本题的结果为一个整数,在提交答案时只填 ...

利用java从docx文档中提取文本内容

利用java从docx文档中提取文本内容

利用java从docx文档中提取文本内容的更多相关文章

随机推荐

热门专题