用Spire.PDF提取PDF里的PNG图片

用Nuget抓取类库，FreeSpire.PDF就可以

代码如下 , 亲测可以抓取PNG图形，即使原图是JPG，也会存成PNG格式输出：

//加载PDF文档

            PdfDocument doc = new PdfDocument();

            doc.LoadFromFile(file);

            List<Image> listImages = new List<Image>();

            for (int i = 0; i < doc.Pages.Count; i++)

            {

                // 实例化一个Spire.Pdf.PdfPageBase对象

                PdfPageBase page = doc.Pages[i];

                // 获取所有pages里面的图片

                Image[] images = page.ExtractImages();

                if (images != null && images.Length > 0)

                {

                    listImages.AddRange(images);

                }

            }

            // 将提取到的图片保存到本地路径

            if (listImages.Count > 0)

            {

                for (int i = 0; i < listImages.Count; i++)

                {

                    Image image = listImages[i];

                    image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);

                }

            }

　　顺便贴下读取文本的代码：

 //实例化一个PdfDocument对象

            PdfDocument doc = new PdfDocument();

            //加载PDF文档

            doc.LoadFromFile(file);

            //实例化一个StringBuilder 对象

            StringBuilder content = new StringBuilder();

            //提取PDF所有页面的文本

            foreach (PdfPageBase page in doc.Pages)

            {

                content.Append(page.ExtractText());

            }

            //将提取到的文本写为.txt格式并保存到本地路径

            String fileName = "获取文本.txt";

            File.WriteAllText(fileName, content.ToString());

用Spire.PDF提取PDF里的PNG图片的更多相关文章

tika提取pdf信息异常
org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more ...
个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息（图片、表格、文本等）
日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息 ...
Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
C# 提取PDF中的表格
本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容:代码内容中涉及到的主要类及方法归纳 ...
美国usan数据库——PDF提取
QQ:231469242 原创单个PDF内容提取 # -*- coding: utf-8 -*- """ io.open() is the preferred, hig ...
单个pdf提取测试
# -*- coding: utf-8 -*- """ Created on Wed Feb 3 09:32:22 2016 pdf单个文件提取测试 @author: A ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
Java 使用PDFBox提取PDF文件中的图片
今天做PDF文件解析,遇到一个需求:提取文件中的图片并保存.使用的是流行的apache开源jar包pdfbox, 但还是遇到坑了,比如pdfbox版本太高或太低都不能用!!这个包竟然没有很好地做好兼容 ...

随机推荐

pyhton2与python3的使用区别
刚刚开始学习python这门编程语言,考虑到python不同版本的一些用法不同,收集整理了一份python2与python3之间的区别,目前可能不全编码(核心类) Python2默认编码ascii, ...
Mysql优化-字段设计
摘抄并用于自查笔记 1. 对精度有要求decimal float 类型用于表示单精度浮点数值,而double类型用于表示双精度浮点数值,float 和 double 都是浮点型,而 decimal 是 ...
XSS攻击原理
本文转载的地址:http://www.2cto.com/Article/201209/156182.html Xss(cross-site scripting)攻击指的是攻击者往Web页面里插入恶意h ...
【学术篇】SPOJ COT 树上主席树
这是学完主席树去写的第二道题_(:з」∠)_ 之前用树上莫队水过了COT2... 其实COT也可以用树上莫队水过去不过好像复杂度要带个log还是怎么样可能会被卡常数.. 那就orz主席吧.... 写了 ...
Android开发 View的UI刷新Invalidate和postInvalidate
Invalidate 正常刷新 /** * 使整个视图无效.如果视图可见, * {@link #onDraw(android.graphics.Canvas)} 调用此方法后将在后续的UI刷新里调用o ...
linux上给其他在线用户发送信息(wall, write, talk, mesg)
linux上给其他在线用户发送信息(wall, write, talk, mesg) 2018-01-05 lonskyMR 转自恶之一眉修改微信分享: 设置登录提示 /et ...
Nacos v0.7.0：对接CMDB，实现基于标签的服务发现能力
Nacos近期发布了0.7.0版本,该版本支持对接第三方CMDB获取CMDB数据.使用Selector机制来配置服务的路由类型.支持单机模式使用MySQL数据库.上线Node.js客户端,并修复了一些 ...
luoguP2580 于是他错误的点名开始了 [Trie]
题目背景 XS中学化学竞赛组教练是一个酷爱炉石的人. 他会一边搓炉石一边点名以至于有一天他连续点到了某个同学两次,然后正好被路过的校长发现了然后就是一顿欧拉欧拉欧拉(详情请见已结束比赛CON900). ...
kubernetes istio的快速安装和使用例子
安装 [root@master ~]# wget https://github.com/istio/istio/releases/download/1.1.5/istio-1.1.5-linux.ta ...
Sonatype Nexus Repository Manager清除无用的docker镜像
1.创建定时任务 2.先run一下看是否能删除无用镜像

用Spire.PDF提取PDF里的PNG图片

用Spire.PDF提取PDF里的PNG图片的更多相关文章

随机推荐

热门专题