Tika

1.解析图片

@Test

    public void test1Image() throws IOException, SAXException, TikaException{

        String filePath = "src/main/resources/baby.jpg";

         //检测文件类型

          BodyContentHandler handler = new BodyContentHandler();

          Metadata metadata = new Metadata();

          FileInputStream inputstream = new FileInputStream(new File(filePath));

          ParseContext pcontext = new ParseContext();

          //Jpeg Parse

          JpegParser  JpegParser = new JpegParser();

          JpegParser.parse(inputstream, handler, metadata,pcontext);

          System.out.println("文档内容:" + handler.toString());

          System.out.println("文档元数据:");

          String[] metadataNames = metadata.names();

          for(String name : metadataNames) {

             System.out.println(name + ": " + metadata.get(name));

          }

    }

结果：

文档内容:

文档元数据:

Number of Components: 3

Flags 0: 192

Image Height: 466 pixels

Data Precision: 8 bits

tiff:BitsPerSample: 8

Compression Type: Baseline

Flags 1: 0

Component 1: Y component: Quantization table 0, Sampling factors 1 horiz/1 vert

Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert

tiff:ImageLength: 466

Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert

DCT Encode Version: 1

Color Transform: YCbCr

tiff:ImageWidth: 444

Image Width: 444 pixels

参考文档:tika

Tika的更多相关文章

【NLP】Tika 文本预处理：抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理作者白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
tika提取pdf信息异常
org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more ...
1.6.3 Uploading Data with Solr Cell using Apache Tika
1. Uploading Data with Solr Cell using Apache Tika solr使用Apache Tika工程的代码提供了一个框架,用于合并所有不同格式的文件解析器为so ...
apache开源项目--TIKA
Tika是一个内容抽取的工具集合(a toolkit for text extracting).它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面.其次,Tika也提供了便利的扩展 ...
【Tika基础教程之一】Tika基础教程
一.快速入门 1.Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等. 使用Tika,可以提取文件中的作者.标题.创建时间.正文等内容 ...
【apache tika】apache tika获取文件内容(与FileUtils的对比)
Tika支持多种功能: 文档类型检测内容提取元数据提取语言检测重要特点: 统一解析器接口:Tika封装在一个单一的解析器接口的第三方解析器库.由于这个特征,用户逸出从选择合适的解析器库的负担, ...
Apache Tika
Tika入门 Tika是一个内容抽取的工具集合(a toolkit for text extracting).它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面.其次,Tika也提 ...
lucene索引查看工具luke和文本提取工具Tika
luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就 ...
代码片段，使用TIKA来解析PDF,WORD和EMAIL
/** * com.jiaoyiping.pdstest.TestTika.java * Copyright (c) 2009 Hewlett-Packard Development Company, ...

随机推荐

理解Python元类（转）
add by zhj:先收藏了,有时间看,图倒是不少,可以配合stackover flow上那篇文章一起看原文:http://blog.ionelmc.ro/2015/02/09/understan ...
Codeforces 707 E. Garlands (二维树状数组)
题目链接:http://codeforces.com/problemset/problem/707/E 给你nxm的网格,有k条链,每条链上有len个节点,每个节点有一个值. 有q个操作,操作ask问 ...
ZOJ1648 Circuit Board（线段相交）
裸的判断线段相交
CodeForces 711C Coloring Trees (DP)
题意:给定n棵树,其中有一些已经涂了颜色,然后让你把没有涂色的树涂色使得所有的树能够恰好分成k组,让你求最少的花费是多少. 析:这是一个DP题,dp[i][j][k]表示第 i 棵树涂第 j 种颜色恰 ...
可以binidng属性的属性【项目】
1:binding后台bool[]数据以及后台ObservableCollection数据分别见下面xaml的Visibility和Text的Binding public bool[] Rubber ...
Ehcache详细解读
[http://raychase.iteye.com/blog/1545906] Ehcache 是现在最流行的纯Java开源缓存框架. [通过编程方式使用EhCache ] //从class ...
重学HTML
http://www.imooc.com/learn/9 1.em/strong 如果想在一段话中特别强调某几个文字,这时候就可以用到<em>或<strong>标签. 但两者在 ...
Django官方文档学习2——数据库及模板
网址:https://docs.djangoproject.com/en/1.10/intro/tutorial02/ 1.扫描installed_apps,创建需要的数据库table python ...
Android中string.xml文件中设置部分字体颜色大小
1.在string.xml文件中: <string name="tips_all"><Data><![CDATA[清理进程:<font colo ...
CSS的魔法和魅力
其实我最开始学会的语言是HTML,我记得那还是大一的事情.当时我对床的兄弟DR放了一本HTML的书在床上,我因为没事就拿来看看.那本书大概只有50页左右,可是可以说如果没有这本书,今天Maybe我不会 ...

Tika

Tika的更多相关文章

随机推荐

热门专题