所需的jar包哦也不要太记得了,大家可以搜搜,直接上代码:

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.text.NumberFormat; import org.apache.commons.io.FileUtils;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.hssf.usermodel.HSSFCell;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.xssf.usermodel.XSSFCell;
import org.apache.poi.xssf.usermodel.XSSFRow;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor; /**
*文件内容读取转换器
*/
public class ReadFileConverter
{ public String getContents(String path) throws Exception
{
  String contents = "";
  int index = path.lastIndexOf(".");
  String file_suffix = path.substring(index+1).toLowerCase();
  if(file_suffix.equalsIgnoreCase("txt")||file_suffix.equalsIgnoreCase("log")){
    contents = this.readTXT(path);
  }
  else if(file_suffix.equalsIgnoreCase("xls")){
    contents = this.readXLS(path);
  }
  else if(file_suffix.equalsIgnoreCase("xlsx")){
    contents = this.readXLSX(path);
  }
  else if(file_suffix.equalsIgnoreCase("doc")){
    contents = this.readDOC(path);
  }
  else if(file_suffix.equalsIgnoreCase("docx")){
    contents = this.readDOCX(path);
  }
  else if(file_suffix.equalsIgnoreCase("pdf")){
    contents = this.readPDF(path);
  }
  return contents;
} public String readXLS(String file) throws Exception
{
  StringBuilder content = new StringBuilder();
  HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream(file));
  try{
    for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){
      if (null != workbook.getSheetAt(numSheets)){
        HSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
        for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){
          if (null != aSheet.getRow(rowNumOfSheet)){
            HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
            for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){
              if (null != aRow.getCell(cellNumOfRow)){
                HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
                if (this.convertCell(aCell).length() > 0){
                  content.append(this.convertCell(aCell));
                 }
              }
              content.append("\n");
            }
          }
        }
      }
    }
  }
  catch(Exception e){
    content.append("xls文件格式不对或损坏");
  }
  finally{
    if(workbook!=null){
      workbook.close();
    }
  }
  return content.toString();
} public String readXLSX(String file) throws Exception
{
  StringBuilder content = new StringBuilder();
  XSSFWorkbook workbook = new XSSFWorkbook(file);
  try{
    for(int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++){
      if (null != workbook.getSheetAt(numSheets)){
        XSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
        for(int rowNumOfSheet = 0; rowNumOfSheet <= aSheet.getLastRowNum(); rowNumOfSheet++){
          if (null != aSheet.getRow(rowNumOfSheet)){
            XSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
            for(short cellNumOfRow = 0; cellNumOfRow <= aRow.getLastCellNum(); cellNumOfRow++){
              if (null != aRow.getCell(cellNumOfRow)){
                XSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
                if (this.convertCell(aCell).length() > 0){
                  content.append(this.convertCell(aCell));
                }
              }
              content.append("\n");
            }
          }
        }
      }
    }
  }catch(Exception e){
    content.append("xlsx文件格式不对或损坏");
  }
  finally{
    if(workbook!=null){
      workbook.close();
    }
  }
  return content.toString();
} public String readTXT(String file) throws Exception
{
  String contents = "";
  try{
    String encoding = this.get_charset(new File(file));
    if (encoding.equalsIgnoreCase("GBK")) {
      contents = FileUtils.readFileToString(new File(file), "gbk");
    } else {
      contents = FileUtils.readFileToString(new File(file), "utf8");
    }
  }catch(Exception e){
    contents = "txt文件格式不对或损坏";
  }
  return contents;
} public String readDOC(String file) throws Exception
{
  String returnStr;
  WordExtractor wordExtractor = new WordExtractor(new FileInputStream(new File(file)));
  try{
    returnStr = wordExtractor.getText();
  }catch(Exception e){
    returnStr="doc文件格式不对或损坏";
  }
  finally{
    if(wordExtractor != null){
      wordExtractor.close();
    }
  }
  return returnStr;
} public String readDOCX(String file) throws Exception
{
  String docx;
  XWPFWordExtractor xwp= new XWPFWordExtractor(POIXMLDocument.openPackage(file));
  try{
    docx= xwp.getText();
  }catch(Exception e){
    docx="docx文件格式不对或损坏";
  }
  finally{
    if(xwp !=null){
      xwp.close();
    }
  }
  return docx;
} public String readPDF(String file) throws Exception
{
  String result = null;
  FileInputStream is = null;
  PDDocument document = null;
  try{
    is = new FileInputStream(file);
    document = PDDocument.load(is);
    PDFTextStripper stripper = new PDFTextStripper();
    result = stripper.getText(document);
  }catch(Exception e){
    result="pdf文件格式不对或损坏";
  }
  finally{
    if (is != null){
      is.close();
    }
    if (document != null){
      document.close();
   }
  }
  return result;
} private String get_charset(File file) throws IOException
{
  String charset = "GBK";
  byte[] first3Bytes = new byte[3];
  BufferedInputStream bis = null;
  try {
    boolean checked = false;
    bis = new BufferedInputStream(new FileInputStream(file));
    bis.mark(0);
    int read = bis.read(first3Bytes, 0, 3);
    if (read == -1)
      return charset;
    if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
      charset = "UTF-16LE";
      checked = true;
    } else if (first3Bytes[0] == (byte) 0xFE&& first3Bytes[1] == (byte) 0xFF) {
      charset = "UTF-16BE";
      checked = true;
    } else if (first3Bytes[0] == (byte) 0xEF&& first3Bytes[1] == (byte) 0xBB&& first3Bytes[2] == (byte) 0xBF) {
      charset = "UTF-8";
      checked = true;
    }
    bis.reset();
    if (!checked) {
      // int len = 0;
      int loc = 0;
      while ((read = bis.read()) != -1) {
        loc=loc+1;
        if (read >= 0xF0)
          break;
        if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的,也算是GBK
          break;
        if (0xC0 <= read && read <= 0xDF) {
          read = bis.read();
          if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
          // (0x80
          // - 0xBF),也可能在GB编码内
            continue;
          else
            break;
        } else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错,但是几率较小
          read = bis.read();
          if (0x80 <= read && read <= 0xBF) {
            read = bis.read();
            if (0x80 <= read && read <= 0xBF) {
              charset = "UTF-8";
              break;
            } else
              break;
          } else
            break;
        }
      }
    }
  } catch (Exception e) {
    e.printStackTrace();
  } finally {
    if (bis != null) {
      bis.close();
    }
  }
  return charset;
} @SuppressWarnings("deprecation")
private String convertCell(Cell cell)
{
  NumberFormat formater = NumberFormat.getInstance();
  formater.setGroupingUsed(false);
  String cellValue = "";
  if (cell == null) {
    return cellValue;
  }
  switch (cell.getCellTypeEnum()) {
    case NUMERIC:
      cellValue = formater.format(cell.getNumericCellValue());
      break;
    case STRING:
      cellValue = cell.getStringCellValue();
      break;
    case BLANK:
      cellValue = cell.getStringCellValue();
      break;
    case BOOLEAN:
      cellValue = Boolean.valueOf(cell.getBooleanCellValue()).toString();
      break;
    case ERROR:
      cellValue = String.valueOf(cell.getErrorCellValue());
      break;
    default:
      cellValue = "";
    }
    return cellValue.trim();
  } }

Java读取各种文件格式内容的更多相关文章

  1. java读取txt文件内容

    package read; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; public ...

  2. Java 读取文件的内容

    Java 读取文件的内容 1) CLASS_NAME: 换成自己真实的类名 2) /page/test.json: 换成自己真实的page 3) FileUtils: 来自于org.apache.co ...

  3. java读取excel文件内容

    1.导入依赖JAR包 <!-- jxl 操作excel --> <dependency> <groupId>org.jxls</groupId> < ...

  4. 实验10—— java读取歌词文件内容动画输出

    1.Read.java package cn.tedu.demo; import java.io.BufferedReader; import java.io.File; import java.io ...

  5. Java 读取Excel 文件内容

    在一个项目中,有一个需求,是把excel文件的内容转换为xml格式展示.在学习如何操作的过程中,首先是如何获取excel文件,其中操作的代码如下: 1.首先是导入需要的 jar, 下载地址:https ...

  6. JAVA读取Excel中内容(HSSF和Workbook两种方法)

    内容添加,以前是用的HSSF,前几天帮同学写一个统计表用了Workbook,现在码一下. ---新内容(Workbook)--- 同学要统计一个xls表格,让表1里面的某一列内容对表2里面的每列进行匹 ...

  7. Java 读取 txt 文件内容到容器 List

    方法一: 一.桌面上准备 DataObject.txt 文件,内容为: 二.打开 Eclipse,编写代码如下: import java.io.BufferedReader; import java. ...

  8. Java读取粘贴板内容

    package com.test.jvm.oom.design; import java.awt.Image; import java.awt.Toolkit; import java.awt.dat ...

  9. 用java读取多种文件格式的文件(pdf,pptx,ppt,doc,docx..)

    本文通过开源pdfbox和poi进行处理多种文件格式的文本读入 1.需要的jar的maven坐标: <dependency> <groupId>org.apache.pdfbo ...

随机推荐

  1. Options Menu的android3.0以上和以下版本显示刷新原理,刷新适配

    一 显示区别: 2.3.x及以下版本,需要按菜单键显示菜单,当菜单打开时,第一个可见的部分是图标菜单,最多可容纳6个菜单项.如果你的菜单包括Android的地方超过6项,第六项,其余将被归到”More ...

  2. FZU Problem 2244 Daxia want to buy house

    模拟题,注意: 1.那两个贷款都是向银行贷的,就是两个贷款的总额不能超过70%,就算公积金贷款能贷也不行,我开始的时候以为公积金贷款是向公司借的,,欺负我这些小白嘛.... 2.最坑的地方 *0.7是 ...

  3. 利用Java程序将字符串进行排序与拼接

    1.初始生成字符串的代码程序: package com.map.test; import java.util.ArrayList; import java.util.Collections; impo ...

  4. kotlin查看编译后的Java代码

    java学一下kotlin,由于用的是同样的jvm,那就说明他们的字节码文件应该是一样的,那么,如果我们能看到编译后的文件,那么学的更快了. 操作 1.打开一个.kt文件 2.在Android Stu ...

  5. JAVA中面向对象

    一.方法: 1.方法概述: 在JAVA中,方法就是用来完成解决某件事情或实现某个功能的办法. 2.方法的语法格式: 修饰符  返回值类型 方法名(参数类型 参数名1,参数类型 参数名2,.....){ ...

  6. mysql 批量修改 表字段/表/数据库 字符集和排序规则

    今天接到一个任务是需要把数据库的字符编码全部修改一下,写了以下修正用的SQL,修正顺序是   表字段 > 表 > 数据库. 表字段修复: #改变字段数据 SELECT TABLE_SCHE ...

  7. 比例缩放 on() prop() 正则表达式

    $('#banner-section').css('height',$(window).width() / 1900 * 490 ); $(window).resize(function(){    ...

  8. Servlet高级部分Listener

    监听器的使用场景: ①:统计在线人数   ②:实现单一登录[一个账号只能在一台机器上登录] Servlet中的8大监听器: 1.         ServletContextListener [接口方 ...

  9. c#中反射技术在Unity中的运用

    反射技术给类赋值的好处就是可以简化代码,封装的好处就显而易见了.最直接的用途就是用在在显示配置文件的时候,个人习惯性做法是做一个VO来存储需要的数据,其代码如下: internal class Bas ...

  10. 利用expect实现自动化操作

    管理机上需要安装expect包 yum -y install expect 1.定义主机ip [root@localhost ~]# cat ip.txt 192.168.1.12 192.168.1 ...