Java读取各种文件格式内容

所需的jar包哦也不要太记得了，大家可以搜搜，直接上代码：

import java.io.BufferedInputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.text.NumberFormat;

import org.apache.commons.io.FileUtils;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.text.PDFTextStripper;

import org.apache.poi.POIXMLDocument;

import org.apache.poi.hssf.usermodel.HSSFCell;

import org.apache.poi.hssf.usermodel.HSSFRow;

import org.apache.poi.hssf.usermodel.HSSFSheet;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.apache.poi.hwpf.extractor.WordExtractor;

import org.apache.poi.ss.usermodel.Cell;

import org.apache.poi.xssf.usermodel.XSSFCell;

import org.apache.poi.xssf.usermodel.XSSFRow;

import org.apache.poi.xssf.usermodel.XSSFSheet;

import org.apache.poi.xssf.usermodel.XSSFWorkbook;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

/**

*文件内容读取转换器

*/

public class ReadFileConverter

{

public String getContents(String path) throws Exception

{

　　String contents = "";

　　int index = path.lastIndexOf(".");

　　String file_suffix = path.substring(index+1).toLowerCase();

　　if(file_suffix.equalsIgnoreCase("txt")||file_suffix.equalsIgnoreCase("log")){

　　　　contents = this.readTXT(path);

　　}

　　else if(file_suffix.equalsIgnoreCase("xls")){

　　　　contents = this.readXLS(path);

　　}

　　else if(file_suffix.equalsIgnoreCase("xlsx")){

　　　　contents = this.readXLSX(path);

　　}

　　else if(file_suffix.equalsIgnoreCase("doc")){

　　　　contents = this.readDOC(path);

　　}

　　else if(file_suffix.equalsIgnoreCase("docx")){

　　　　contents = this.readDOCX(path);

　　}

　　else if(file_suffix.equalsIgnoreCase("pdf")){

　　　　contents = this.readPDF(path);

　　}

　　return contents;

}

public String readXLS(String file) throws Exception

{

　　StringBuilder content = new StringBuilder();

　　HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream(file));

　　try{

　　　　for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){

　　　　　　if (null != workbook.getSheetAt(numSheets)){

　　　　　　　　HSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet

　　　　　　　　for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){

　　　　　　　　　　if (null != aSheet.getRow(rowNumOfSheet)){

　　　　　　　　　　　　HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行

　　　　　　　　　　　　for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){

　　　　　　　　　　　　　　if (null != aRow.getCell(cellNumOfRow)){

　　　　　　　　　　　　　　　　HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值

　　　　　　　　　　　　　　　　if (this.convertCell(aCell).length() > 0){

　　　　　　　　　　　　　　　　　　content.append(this.convertCell(aCell));

　　　　　　　　　　　　　　　　　}

　　　　　　　　　　　　　　}

　　　　　　　　　　　　　　content.append("\n");

　　　　　　　　　　　　}

　　　　　　　　　　}

　　　　　　　　}

　　　　　　}

　　　　}

　　}

　　catch(Exception e){

　　　　content.append("xls文件格式不对或损坏");

　　}

　　finally{

　　　　if(workbook!=null){

　　　　　　workbook.close();

　　　　}

　　}

　　return content.toString();

}

public String readXLSX(String file) throws Exception

{

　　StringBuilder content = new StringBuilder();

　　XSSFWorkbook workbook = new XSSFWorkbook(file);

　　try{

　　　　for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){

　　　　　　if (null != workbook.getSheetAt(numSheets)){

　　　　　　　　XSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet

　　　　　　　　for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){

　　　　　　　　　　if (null != aSheet.getRow(rowNumOfSheet)){

　　　　　　　　　　　　XSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行

　　　　　　　　　　　　for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){

　　　　　　　　　　　　　　if (null != aRow.getCell(cellNumOfRow)){

　　　　　　　　　　　　　　　　XSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值

　　　　　　　　　　　　　　　　if (this.convertCell(aCell).length() > 0){

　　　　　　　　　　　　　　　　　　content.append(this.convertCell(aCell));

　　　　　　　　　　　　　　　　}

　　　　　　　　　　　　　　}

　　　　　　　　　　　　　　content.append("\n");

　　　　　　　　　　　　}

　　　　　　　　　　}

　　　　　　　　}

　　　　　　}

　　　　}

　　}catch(Exception e){

　　　　content.append("xlsx文件格式不对或损坏");

　　}

　　finally{

　　　　if(workbook!=null){

　　　　　　workbook.close();

　　　　}

　　}

　　return content.toString();

}

public String readTXT(String file) throws Exception

{

　　String contents = "";

　　try{

　　　　String encoding = this.get_charset(new File(file));

　　　　if (encoding.equalsIgnoreCase("GBK")) {

　　　　　　contents = FileUtils.readFileToString(new File(file), "gbk");

　　　　} else {

　　　　　　contents = FileUtils.readFileToString(new File(file), "utf8");

　　　　}

　　}catch(Exception e){

　　　　contents = "txt文件格式不对或损坏";

　　}

　　return contents;

}

public String readDOC(String file) throws Exception

{

　　String returnStr;

　　WordExtractor wordExtractor = new WordExtractor(new FileInputStream(new File(file)));

　　try{

　　　　returnStr = wordExtractor.getText();

　　}catch(Exception e){

　　　　returnStr="doc文件格式不对或损坏";

　　}

　　finally{

　　　　if(wordExtractor != null){

　　　　　　wordExtractor.close();

　　　　}

　　}

　　return returnStr;

}

public String readDOCX(String file) throws Exception

{

　　String docx;

　　XWPFWordExtractor xwp= new XWPFWordExtractor(POIXMLDocument.openPackage(file));

　　try{

　　　　docx= xwp.getText();

　　}catch(Exception e){

　　　　docx="docx文件格式不对或损坏";

　　}

　　finally{

　　　　if(xwp !=null){

　　　　　　xwp.close();

　　　　}

　　}

　　return docx;

}

public String readPDF(String file) throws Exception

{

　　String result = null;

　　FileInputStream is = null;

　　PDDocument document = null;

　　try{

　　　　is = new FileInputStream(file);

　　　　document = PDDocument.load(is);

　　　　PDFTextStripper stripper = new PDFTextStripper();

　　　　result = stripper.getText(document);

　　}catch(Exception e){

　　　　result="pdf文件格式不对或损坏";

　　}

　　finally{

　　　　if (is != null){

　　　　　　is.close();

　　　　}

　　　　if (document != null){

　　　　　　document.close();

 　　　}

　　}

　　return result;

}

private String get_charset(File file) throws IOException

{

　　String charset = "GBK";

　　byte[] first3Bytes = new byte[3];

　　BufferedInputStream bis = null;

　　try {

　　　　boolean checked = false;

　　　　bis = new BufferedInputStream(new FileInputStream(file));

　　　　bis.mark(0);

　　　　int read = bis.read(first3Bytes, 0, 3);

　　　　if (read == -1)

　　　　　　return charset;

　　　　if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {

　　　　　　charset = "UTF-16LE";

　　　　　　checked = true;

　　　　} else if (first3Bytes[0] == (byte) 0xFE&& first3Bytes[1] == (byte) 0xFF) {

　　　　　　charset = "UTF-16BE";

　　　　　　checked = true;

　　　　} else if (first3Bytes[0] == (byte) 0xEF&& first3Bytes[1] == (byte) 0xBB&& first3Bytes[2] == (byte) 0xBF) {

　　　　　　charset = "UTF-8";

　　　　　　checked = true;

　　　　}

　　　　bis.reset();

　　　　if (!checked) {

　　　　　　// int len = 0;

　　　　　　int loc = 0;

　　　　　　while ((read = bis.read()) != -1) {

　　　　　　　　loc=loc+1;

　　　　　　　　if (read >= 0xF0)

　　　　　　　　　　break;

　　　　　　　　if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的，也算是GBK

　　　　　　　　　　break;

　　　　　　　　if (0xC0 <= read && read <= 0xDF) {

　　　　　　　　　　read = bis.read();

　　　　　　　　　　if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)

　　　　　　　　　　// (0x80

　　　　　　　　　　// - 0xBF),也可能在GB编码内

　　　　　　　　　　　　continue;

　　　　　　　　　　else

　　　　　　　　　　　　break;

　　　　　　　　} else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错，但是几率较小

　　　　　　　　　　read = bis.read();

　　　　　　　　　　if (0x80 <= read && read <= 0xBF) {

　　　　　　　　　　　　read = bis.read();

　　　　　　　　　　　　if (0x80 <= read && read <= 0xBF) {

　　　　　　　　　　　　　　charset = "UTF-8";

　　　　　　　　　　　　　　break;

　　　　　　　　　　　　} else

　　　　　　　　　　　　　　break;

　　　　　　　　　　} else

　　　　　　　　　　　　break;

　　　　　　　　}

　　　　　　}

　　　　}

　　} catch (Exception e) {

　　　　e.printStackTrace();

　　} finally {

　　　　if (bis != null) {

　　　　　　bis.close();

　　　　}

　　}

　　return charset;

}

@SuppressWarnings("deprecation")

private String convertCell(Cell cell)

{

　　NumberFormat formater = NumberFormat.getInstance();

　　formater.setGroupingUsed(false);

　　String cellValue = "";

　　if (cell == null) {

　　　　return cellValue;

　　}

　　switch (cell.getCellTypeEnum()) {

　　　　case NUMERIC:

　　　　　　cellValue = formater.format(cell.getNumericCellValue());

　　　　　　break;

　　　　case STRING:

　　　　　　cellValue = cell.getStringCellValue();

　　　　　　break;

　　　　case BLANK:

　　　　　　cellValue = cell.getStringCellValue();

　　　　　　break;

　　　　case BOOLEAN:

　　　　　　cellValue = Boolean.valueOf(cell.getBooleanCellValue()).toString();

　　　　　　break;

　　　　case ERROR:

　　　　　　cellValue = String.valueOf(cell.getErrorCellValue());

　　　　　　break;

　　　　default:

　　　　　　cellValue = "";

　　　　}

　　　　return cellValue.trim();

　　}

}

Java读取各种文件格式内容的更多相关文章

java读取txt文件内容
package read; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; public ...
Java 读取文件的内容
Java 读取文件的内容 1) CLASS_NAME: 换成自己真实的类名 2) /page/test.json: 换成自己真实的page 3) FileUtils: 来自于org.apache.co ...
java读取excel文件内容
1.导入依赖JAR包  <dependency> <groupId>org.jxls</groupId> < ...
实验10—— java读取歌词文件内容动画输出
1.Read.java package cn.tedu.demo; import java.io.BufferedReader; import java.io.File; import java.io ...
Java 读取Excel 文件内容
在一个项目中,有一个需求,是把excel文件的内容转换为xml格式展示.在学习如何操作的过程中,首先是如何获取excel文件,其中操作的代码如下: 1.首先是导入需要的 jar, 下载地址:https ...
JAVA读取Excel中内容（HSSF和Workbook两种方法）
内容添加,以前是用的HSSF,前几天帮同学写一个统计表用了Workbook,现在码一下. ---新内容(Workbook)--- 同学要统计一个xls表格,让表1里面的某一列内容对表2里面的每列进行匹 ...
Java 读取 txt 文件内容到容器 List
方法一: 一.桌面上准备 DataObject.txt 文件,内容为: 二.打开 Eclipse,编写代码如下: import java.io.BufferedReader; import java. ...
Java读取粘贴板内容
package com.test.jvm.oom.design; import java.awt.Image; import java.awt.Toolkit; import java.awt.dat ...
用java读取多种文件格式的文件（pdf,pptx,ppt,doc,docx..)
本文通过开源pdfbox和poi进行处理多种文件格式的文本读入 1.需要的jar的maven坐标: <dependency> <groupId>org.apache.pdfbo ...

随机推荐

Codeforces Round #363 (Div. 2) A
Description There will be a launch of a new, powerful and unusual collider very soon, which located ...
Fence Repair （二叉树求解）（优先队列，先取出小的）
题目链接:http://poj.org/problem?id=3253 Fence Repair Time Limit: 2000MS Memory Limit: 65536K Total Sub ...
【hihocoder】1237 : Farthest Point 微软2016校招在线笔试题
题目:给定一个圆,要你求出一个在里面或者在边上的整数点,使得这个点到原点的距离最大,如果有多个相同,输出x最大,再输出y最大. 思路:对于一个圆,里面整点个数的x是能确定的.你找到x的上下界就可以了. ...
EasyTouch3.16 初步使用
记录下laravel 5.2的auth/logout路由工作不正常的问题
How to Install Apache Solr 4.5 on CentOS 6.4
By Shay Anderson on October 2013 Knowledge Base / Linux / How to Install Apache Solr 4.5 on Cent ...
并发访问sqlite数据库出现databse is locked的错误的一个解决办法
作者:朱金灿来源:http://blog.csdn.net/clever101 在并发访问sqlite数据库会出现这样一个错误:databseis locked,这是sqlite数据库对并发支持不太 ...
在vim中插入命令行的输出结果
vim是linux中常见的编辑器,这里讲讲如何在vim中插入命令行的输出结果. 基本用法: 在指令模式下运行 :!command ,如!date将日期显示在vim底部,!ls列出当前目录将命令结果插 ...
lintcode五道题
1.二叉树的最大深度最大深度为根节点到最远叶子节点的距离为最大深度,于是可以先找到根节点到叶子节点最大的距离,过程就可以分为左子树和右子树分别进行来求左.右子树的最大深度lh=height(roo ...
sweetalert 1.0多次回调函数bug
一个删除功能,原来的实现方式(注释部分)有多次的回调,会出现第二个swal窗口不显示,回调函数体不执行的情况.后来的解决方式是使用bootstrap的modal模态框,删除成功后显示模态框,模态框关闭 ...

Java读取各种文件格式内容

Java读取各种文件格式内容的更多相关文章

随机推荐

热门专题