pdf转中文txt

最近项目需要实现根据关键字搜索pdf内容,实现思路就是提取pdf文本,然后进行索引. 工具上选择: IText 4.16之后采用agpl License,不能用作商用,而且转换中文会有乱码问题, pdfsharp 采用MIT License,权限上没有问题,但是转换中文也会有乱码, 最后决定采用xpdf. 官网地址:https://www.xpdfreader.com/download.html 需要下载对应的xpdf包,本人采用的windows x64 版本此外还要下载中文字符集包:简体中文…

Python 将pdf转换成txt（不处理图片）

上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt. 师兄推荐使用PDFMiner来处理,尝试了一番,确实效果不错,在此和大家分享. PDFMiner 的简介:PDFMiner is a tool for extracting information from PDF documents.…

xhtmlrenderer渲染pdf，中文换行

在实际开发中,发现在table中显示中文,渲染出来的pdf,中文内容不自动换行.经过搜索发现了一种解决方案,如下: 重写Breaker,修改right计算方式 /* * Breaker.java * Copyright (c) 2004, 2005 Torbj�rn Gannholm, * Copyright (c) 2005 Wisconsin Court System * * This program is free software; you can redistribute it and…

iReport 5.6.0 PDF导出中文不显示问题解决方案

问题描述 iReport 5.6.0 PDF格式导出,中文不显示. 报错信息如下: Error exporting print... Could not load the following font : pdfFontName : STSong-LightpdfEncoding : UniGB-UCS2-HisPdfEmbedded : truenet.sf.jasperreports.engine.JRRuntimeException: Could not load the foll…

c#上传文件并将word pdf转化成txt存储并将内容写入数据库

c#上传文件并将word pdf转化成txt存储并将内容写入数据库 using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Security; using System.Web.UI; using System.Web.UI.WebControls; using System.Web.UI.WebControls.WebParts; using System.W…

解决python3读写中文txt时UnicodeDecodeError : 'ascii' codec can't decode byte 0xc4 in position 5595: ordinal not in range(128) on line 0的问题

今天使用python3读写含有中文的txt时突然报了如下错误,系统是MAC OS,iDE是pycharm: UnicodeDecodeError : 'ascii' codec can't decode byte 0xc4 in position 5595: ordinal not in range(128) on line 0 按理说python3的默认编码是unicode,不应该出现这种错误,排查以后发现问题及解决方案如下: import locale print(locale.getpre…

ABP进阶教程10 - PDF导出中文乱码

点这里进入ABP进阶教程目录问题描述功能按钮 - 导出PDF,中文信息导出为乱码. 解决方案导出PDF是通过pdfmake.js实现的. 检查发现是pdfmake引用的vfs_fonts.js字体只有一种: Roboto,而Roboto不支持中文. 解决思路是生成一个包含支持中文字体的vfs_fonts.js替换掉旧的文件. 下载项目下载pdfmake https://github.com/bpampuch/pdfmake 安装gulp 全局安装 npm i gulp-cli -g 本地…

ASP.Net MVC——使用 ITextSharp 完美解决HTML转PDF（中文也可以）

前言: 最近在做老师交代的一个在线写实验报告的小项目中,有这么个需求:把学生提交的实验报告(HTML形式)直接转成PDF,方便下载和打印. 以前都是直接用rdlc报表实现的,可这次牵扯到图片,并且更为重要的一点是 PDF的格式得跟学生提交的HMTL页面一样.经过网上查阅资料, 找到了ITextSharp插件. ITextSharp很强大,但是在处理HMTL中的 img标签时,src中只能是绝对路径. 解决方法我写在了另一篇文章中正文: ITextSharp就不多介绍了.项目的链接下载链接为ht…

使用TCPDF插件生成pdf以及pdf的中文处理

目录(?)[+] 多种多样的pdf开发库 WKHTMLTOPDF 2FPDF 3TCPDF 中文问题做了这么多年项目,以前只是在别人的项目中了解过PHP生成pdf文件,知道并不难,但是涉及到了pdf开发库,首先介绍pdf库. 多种多样的pdf开发库 1.WKHTMLTOPDF wkhtmltopdf是一个很好的解决方案,基本上可以原样输出html页面中的内容,包括:图片/代码高亮部分css/页头/页尾等.有php和命令行方式,大概思路如下: 1) 先获取所有的远程html,然后生成wk…

Python读取中文txt文件错误：UnicodeEncodeError: 'gbk' codec can't encode character

with open(file,'r') as f: line=f.readline() i=1 while line: line=line.decode('utf-8') line=f.readline() i=i+1 用以上代码读取一个包含中文的txt文件时,在正确地读取并打印了六百多行之后,print str(i)+": "+line这一行报错: UnicodeEncodeError: 'gbk' codec can't encode character u'\u200b' in…

PDF转换成Txt

我的弱智想法是所有能转换成PDF的文件,就都用PDF预览,上传成功后开启一个线程把文档转换成PDF,PDF再转换成txt. 目的是把txt插入索引进行全文检索. 调用的时候 string filePath=“文件的物理路径”; string wordToTxtPath = filePath.Replace(".pdf", ".txt"); PdfToTxt.pdf2txt(filePath, wordToTxtPath); 你想保存的位置,路径最后的文件名要…

jupyter notebook 目录配置、导出 tex 和 pdf 及中文支持

环境:macbook pro, mactex, jupyter notebook, brew 安装pandoc从而支持格式转换为tex: brew install pandoc 修改tex article 模板,添加中文支持: >/dev/null | xargs vi# like .../nbconvert/templates/latex/article.tplx# 或者分两条命令运行修改Latex Article头部为: %=================================…

C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

var pdfReader = new PdfReader("xxx.pdf"); StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create)); int pageCount = pdfReader.NumberOfPages; ; pg <= pageCount; pg++) { ITextExtractionStrategy strategy = ne…

LibreOffice转换文档到pdf时中文乱码

根据我的测试,LibreOffice转换文档到pdf乱码主要有三个方面的原因: 1.centos缺少中文字体 2.jdk缺少中文字体 3.LibreOffice缺少中文字体. 解决该问题需要将window下的字体copy到centos相应目录下. 原因1的解决方案参考 http://blog.csdn.net/u013132051/article/details/53514696 安装字体时可能出现失败的情况,可以不用管.字体安装完毕后需要重启soffice服务原因2的解决方案需要将字体cop…

PHP使用FPDF pdf添加水印中文乱码问题 pdf合并版本问题

---恢复内容开始--- require_once('../fpdf/fpdf.php');require_once('../fpdi/fpdi.php'); 使用此插件 pdf 合并并添加水印期间遇到添加水印中文乱码问题解决办法: require ('chinese.php') 基本百度都是这个都可以解决此问题但我这边还用到fpdi.php的方法所以我是将代码整合到fpdi.php中重点: $pdf = new FPDI(); //设置字体要在实例化之后就设置否则会报错 $…

R语言pdf输出中文乱码处理

1.使用基础包.使用函数pdf()输出在使用pdf()函数时,要输出中文,仅仅有一种字体可选. 样例: pdf("chinese.pdf",family="GB1") plot(m2,xlab="高度",ylab="体重",main="统计") dev.off() 这里字体參数family仅仅能设置成"GB1"(不知是否还有其它字体可选),默认宋体. 2.使用Cairo包.使用Cair…

jasperreports-5.6 + jaspersoftstudio-5.6 生成pdf 文件中文无法正常显示问题

jrxml字段属性设置: <textElement> <font fontName="宋体" pdfFontName="STSong-Light" pdfEncoding="UniGB-UCS2-H" isPdfEmbedded="true"/> </textElement> 在工程lib中引入itextasian-1.5.2.jar文件,注意该文件的目录结构为com/lowagie/tex…

mpdf-html转PDF，中文字符乱码、加粗问题

$defaultConfig = (new ConfigVariables())->getDefaults(); $fontDirs = $defaultConfig['fontDir']; $defaultFontConfig = (new FontVariables())->getDefaults(); $fontData = $defaultFontConfig['fontdata']; $mArr = [ 'tempDir'=>__DIR__.'/tmp', 'fontDir'…

FileReader读取中文txt文件编码丢失问题（乱码）(转)

有一个UTF-8编码的文本文件,用FileReader读取到一个字符串,然后转换字符集:str=new String(str.getBytes(),"UTF-8");结果大部分中文显示正常,但最后仍有部分汉字显示为问号! public static List<String> getLines(String fileName){ List<String> lines=new ArrayList<String>(); try { BufferedRead…

php pdf添加水印(中文水印,图片水印)

1.下载软件包链接:https://pan.baidu.com/s/1cah-mf-SCtfMhVyst_sG8w&shfl=sharepset 提取码:ld8z 2.下载pdf_watermark-master.zip 解压后就可以运行pic.php添加图片水印运行word.php tianjia 文字水印但是存在一个问题,你会发现添加中文水印后,会出现乱码情况,别慌老弟,咱们一起解决,走着!!! 3.下载cd_FPDF-master.zip 将 cd_FPDF-master\font…

mpdf导出pdf，中文符号乱码

改源码: 打开vendor/mpdf/mpdf/src/Config/FontVariables.php 在最后一行加入: "gb" => [ 'R' => 'gb.ttf', 'B' => 'gb.ttf', 'I' => 'gb.ttf' ] new的时候,使用刚刚设置的字体 $mpdf = new Mpdf(['utf-8', 'A4', 16, '', 10, 10, 15, 1, 'default_font' => 'gb']); 然后就可以用了…

彻底解决android读取中文txt的乱码（自动判断文档类型并转码

原文:http://blog.csdn.net/handsomedylan/article/details/6138400 public String convertCodeAndGetText(String str_filepath) {// 转码 File file = new File(str_filepath); BufferedReader reader; String text = ""; …

Jaspersoft Studio 导出PDF格式中文不显示

1:设置字体 2:应用上面设置的字体…

Elasticsearch Server,2nd Edition pdf 翻译中文

很偶然的机会,就需要接触到搜索,入门就是google trend已然超过solr的ES.在入门的时候找书的时候发现没有中文版的.于是自己开始翻译Elasticsearch Server,2nd Edition.应该是全球头一份了.看到微博上已经有出版社把英文书引过来,刚找到了人翻译这本书.我就先放出来自己翻的一部分.如果他真找到这里来了,就义务提供一下自己翻译的资源: 翻译是同步在我的Evernote里.贴出来到blog里样式都乱了.索性分享出来我的Evernote.去看去吧. 如果要引用或者转…

[原创]OpenERP 7.0 打印PDF报表中文乱码问题的解决方案。

网上的解决方案基本上以替换字体和安装上海先锋科技开发的软件包配置两种方案,替换字体的方案尝试了几次都么有成功,安装软件包的方案成功. 软件环境:Ubuntu Server 12.04 第一步:先到http://apps.openerp.com/addon/get_module_as_zip/6647/oecn_base_fonts.zip这里下载oecn_base_fonts这个软件包,并按装对应的字体: sudo apt-get install ttf-wqy-zenhei 第二步:解压放到/…