Java直接URL获取PDF内容

题外话

网上很多Java通过pdf转 HTML，转文本的，可是通过URL直接获取PDF内容，缺没有，浪费时间，本人最近工作中刚好用到，花了时间整理下，分享出来，防止浪费时间，Apache的pdfbox 2013年都有了。

import java.io.*;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.text.PDFTextStripper;

/**

 * 通过URL获得PDF内容 转存

 * @author sunyang

 * @date 2019/1/24 14:40

 */

public class PdfText2Url {

    public static void main(String[] args) {

        try {

            //需要获取到的PDF地址

    readPdf("https://img1.xxx.org/tech/file/9bd7/733b/7ef54fbf672cfffaf2b1a6c2.pdf");

        }catch (Exception e){

        }

    }

    /**

     * 传入一个.pdf 地址

     * @param pdfUrl 地址

     * @throws Exception

     */

    public static void readPdf(String pdfUrl) throws Exception {

        // 是否排序

        boolean sort = false;

        // 编码方式

        String encoding = "UTF-8";

        // 开始提取页数

        int startPage = 1;

        // 内存中存储的PDF Document

        PDDocument pdDocument = null;

        //输入流

        InputStream inputStream = null;

        try {

            try {

                // 当作一个URL来装载文件

                URL url = new URL(pdfUrl);

                URLConnection con = url.openConnection();

                con.setConnectTimeout(3 * 1000);

                inputStream = con.getInputStream();

                pdDocument = PDDocument.load(inputStream);

            } catch (MalformedURLException e) {

            }

            // 获取页码

            int endPage = pdDocument.getNumberOfPages();

            PDFTextStripper stripper = null;

            stripper = new PDFTextStripper();

            // 设置是否排序

            stripper.setSortByPosition(sort);

            // 设置起始页

            stripper.setStartPage(startPage);

            // 设置结束页

            stripper.setEndPage(endPage);

            System.out.println(stripper.getText(pdDocument));

            System.out.println(" 输出成功！");

        } finally {

            if (inputStream != null) {

                // 关闭输出流

                inputStream.close();

            }

            if (pdDocument != null) {

                // 关闭PDF Document

                pdDocument.close();

            }

        }

    }

}

Pom.xml 添加Apache的pdfbox，已经很成熟了

<dependency>

      <groupId>org.apache.pdfbox</groupId>

      <artifactId>fontbox</artifactId>

      <version>2.0.7</version>

    </dependency>

    <dependency>

      <groupId>org.apache.pdfbox</groupId>

      <artifactId>pdfbox</artifactId>

      <version>2.0.4</version>

    </dependency>

Java从URL获取PDF内容的更多相关文章

java根据URL获取HTML内容
之前我写脚本,是想获取HTML内容的. 但是呢...一方面编码困扰着我,于是我写了这个: java根据URL获取网页编码然后呢,每个网站是不是GZIP还得判断,贼麻烦... 但是没办法啊,麻烦也得写 ...
java通过URL获取文本内容
原文地址https://www.cnblogs.com/myadmin/p/7634262.html public static String readFileByUrl(String urlStr) ...
JAVA通过url获取页面内容
String address = "http://sports.sina.com.cn/nba/live.html?id=2015050405"; URL url = new UR ...
java根据URL获取网页编码
由于很多原因,我们要获取网页的编码(多半是写批量抓取的脚本吧...嘻嘻嘻) 注意: 如果你的目的是获取不乱码的网页内容(而不是根据网址发送post请求获取返回值),切记切记,移步这里 java根据UR ...
java根据url获取json对象
package test; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; ...
java 获取pdf内容
1. 说明将pdf中的文字读取处理还有一些限制:1. 文档的安全属性不能过于严格 2. 不能存在图片. 2. 直接贴相关的源码有两种读取方式,maven对应的pom文件 <dependenc ...
fopen()、 file_get_contents() 通过url获取链接内容
功能:获得网页内容区别如下: fopen()打开URL 下面是一个使用fopen()打开URL的例子: <?php $fh = fopen('http://www.baidu.com/', ' ...
java的Scanner获取输入内容
//导入 scanner的包 import java.util.Scanner; Scanner scanner = new Scanner(System.in); System.out.printl ...
java根据url获取完整域名
private String getDomain(String destination){ if(destination==null||destination.trim().equals(" ...

随机推荐

剑指offer面试题27：二叉搜索树与双向链表
题目:输入一颗二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的节点,只能调整树中节点指针的指向. 由于二叉搜索树是有序的,左子结点的值小于根节点的值,右子结点的值大于根节点的值 ...
简单 v.s. 基础
无论做平面设计还是做摄影创作,其基础都是一些比较粗浅的看似毫无用处的简单技能.例如画直线.拍挂在墙上的电视机,不一而足. 同样的现象还能在web的前端设计中看到.一堆类似小孩学绘画的标签,几个可以更改 ...
Hadoop Partition函数应用(归档)
一.实例描述在这个实例里我们使用简单的数据集,里面包含多条数据,每条数据由姓名.年龄.性别和成绩组成.实例要求是按照如下规则归档用户. 1.找出年龄小于20岁中男生和女生的最大分数 2.找出20岁到 ...
Javascript高级编程学习笔记（43）—— 动态脚本
动态脚本大多数情况下,DOM操作都很简洁明了因为DOM主要就是用来操作页面中的可视节点的但有些时候我们又希望可以动态的来进行DOM操作其中的一部分也就是今天我们的内容动态脚本动态脚本是什么意 ...
js-完整轮播图
js-完整轮播图今天写一个完整的轮播图,首先它需要实现三个功能:1.鼠标放在小圆点上实现轮播.2.点击焦点按钮实现轮播.3.无缝自动轮播. 轮播图的原理: 一系列的大小相等的图片平铺,利用CSS布 ...
解决android sdk 运行出现 could not install *smartsocket* listener: cannot bind to 127.0.0.1:5037:的问题
ionic3项目,在添加android平台后,cordova run android 出现以下问题: error: could not install *smartsocket* listener: ...
Java提高（5）---map集合排序
map集合排序这篇文章讲的不仅仅是map排序,比如把对象按某一属性排序,它都可以解决这些问题. 比如,有N个对象,每个对象有个属性就是成绩,成绩分:优秀,良好,合格.那我们如何按照成绩的好坏进行排序 ...
deque源码3(deque的构造与内存、ctor、push_back、push_front)
deque源码1(deque概述.deque中的控制器) deque源码2(deque迭代器.deque的数据结构) deque源码3(deque的构造与内存.ctor.push_back.push_ ...
Activity的生命周期函数
前言: 上一篇文章写了关于Activity生命周期和生命周期状态的介绍,这一篇文章给大家聊聊Activity生命周期函数. 主Activity: 应用程序的入口一般都是桌面应用程序图标,用户点击应用图 ...
自动化测试 | UI Automator 进阶指南
UI Automator 相关介绍: 跨应用的用户界面自动化测试包含在 AndroidX Test(https://developer.android.com/training/testing) 中 ...

Java从URL获取PDF内容

Java直接URL获取PDF内容

Java从URL获取PDF内容的更多相关文章

随机推荐

热门专题