Apache-Tika解析Excell文档

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Excell格式的文章，如下：

package com.mengyao.tika.app;

import java.io.File;

import java.io.FileInputStream;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;

import org.apache.tika.sax.BodyContentHandler;

public class ExcellApp {

    public static void main(final String[] args) throws Exception {

        // Tika默认是10*1024*1024，这里防止文件过大导致Tika报错

        BodyContentHandler handler = new BodyContentHandler(1024 * 1024 * 10);

        Metadata metadata = new Metadata();

        FileInputStream inputstream = new FileInputStream(new File("D:/报价清单.xlsx"));

        ParseContext pcontext = new ParseContext();

        // 解析Excell文档时应由超类AbstractParser的派生类OOXMLParser实现

        OOXMLParser msofficeparser = new OOXMLParser();

        msofficeparser.parse(inputstream, handler, metadata, pcontext);

        // 获取Excell文档的内容

        System.out.println("Excell文档内容:" + handler.toString());

        // 获取Excell文档的元数据

        System.out.println("Excell文档元数据:");

        String[] metadataNames = metadata.names();

        for (String name : metadataNames) {

            System.out.println(name + " : " + metadata.get(name));

        }

    }

}

Apache-Tika解析Excell文档的更多相关文章

apache不解析php文档？提示需要下载(转)
在httpd.cong中 LoadModule php5_module modules/libphp5.so #这一行php5安装的时候就已经自动添加上了 AddType application/x- ...
Apache-Tika解析Word文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下: package com.mengyao.tika.app; i ...
Apache-Tika解析HTML文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理HTML格式的文章,如下: package com.mengyao.tika.app; i ...
Apache-Tika解析XML文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理XML格式的文章,如下: package com.mengyao.tika.app; im ...
Apache-Tika解析PDF文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下: package com.mengyao.tika.app; im ...
四种生成和解析XML文档的方法详解（介绍+优缺点比较+示例）
众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...
四种生成和解析XML文档的方法详解
众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...
Java高级特性第13节解析XML文档(1) - DOM和XPath技术
一.使用DOM解析XML文档 DOM的全称是Document Object Model,也即文档对象模型.在应用程序中,基于DOM的XML分析器将一个XML文档转换成一个对象模型的集合(通常称DOM树 ...
大杂烩 -- 四种生成和解析XML文档的方法详解
基础大杂烩 -- 目录众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J DOM:在现在的Java JDK里都自带了,在xml-apis.jar包 ...

随机推荐

对xml操作
已知有一个XML文件(bookshop.xml)如下: <?xml version="1.0" encoding="gb2312" ?> <b ...
JS调用android逻辑方法
1.安卓打开webview时做如下配置并做一回调接口这里注意的是参数 FULIBANG 和回调接口方法 jsCallWebView 一会在JS里会用到 ================= ...
iOS UICollectionview的详细介绍
转载自:http://jinqianchina.github.io/2015/08/16/UICollectionview%E7%9A%84%E4%BD%BF%E7%94%A8%E8%AF%A6%E8 ...
PSD 转化成 HTML
一般情况下,网页设计制作完成的工作实际是:psd 效果图转成 html+CSS 的模板页面,一般情况下,我们会拿到美工的 psd,不同的人会有不同的做法: 打开fireworks将图片切割导出为ht ...
java_设计模式_命令模式_Command Pattern（2016-08-09）
理解还不到位,先窜出来.等过一阵子再看,再理解. 定义:将一个请求封装成一个对象,从而让你使用不同的请求把客户端参数化,对请求排队或者记录请求日志,可以提供命令的撤销和恢复功能. 类型:行为类模式类 ...
X-Plane数据交互
要用X-Plane进行二次开发,免不了需要进行参数的传递,下面我们来看看与X-Plane进行数据交互都有哪些方式. 与FSX和Flightgear基本一样,X-Plane支持插件,自然也支持通过插件进 ...
this point
// this.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> using namespa ...
WHU 1572 Cyy and Fzz (AC自动机 dp )
题意: 给出n个串,求任意长度为m的字符串包含串的个数的期望.(n<=8,m<=14,给定串的长度不超过12). Solution: 首先可以想到应该用概率DP,我们需要至少3维,dp[i ...
工厂方法模式(Factory Method)
1.本质:延迟到子类来选择实现 2.示意图: 3.主要功能: 让父类在不知道具体实现的情况下,完成自身功能的调用类似于注入 4.备注: 1.工厂方法中,通常父类是一个抽象类,里面包含创建对象的抽象工 ...
做了一个类似天猫鼠标经过icon的动画，记录一下
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

Apache-Tika解析Excell文档

Apache-Tika解析Excell文档的更多相关文章

随机推荐

热门专题