python3将docx转换成pdf,html文件,pdf转doc文件

直接上代码

# -*- encoding:utf-8 -*-

"""

    author:lgh

    简单的doc转pdf，html，pdf转doc脚本

    依赖库pdfminer3k,pip install pdfminer3k即可

"""

from win32com.client import Dispatch, constants

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.layout import LAParams, LTTextBoxHorizontal

from pdfminer.converter import PDFPageAggregator

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def doc2pdf(input, output):

    w = Dispatch('Word.Application')

    try:

        # 打开文件

        doc = w.Documents.Open(input, ReadOnly=1)

        # 转换文件

        doc.ExportAsFixedFormat(output, constants.wdExportFormatPDF,

                                Item=constants.wdExportDocumentWithMarkup, CreateBookmarks = constants.wdExportCreateHeadingBookmarks)

        return True

    except Exception as e:

        print(e)

        return False

    finally:

        w.Quit(constants.wdDoNotSaveChanges)

def doc2html(input, output):

    w = Dispatch('Word.Application')

    try:

        doc = w.Documents.Open(input, ReadOnly=1)

        doc.SaveAs(output, 8)

        return True

    except Exception as e:

        print(e)

        return False

    finally:

        w.Quit(constants.wdDoNotSaveChanges)

def pdf2doc(input, output):

    try:

        with open(input, 'rb') as f:

            parser = PDFParser(f)

            doc = PDFDocument()

            parser.set_document(doc)

            doc.set_parser(parser)

            # 设置初始化密码

            doc.initialize()

            if not doc.is_extractable:

                raise PDFTextExtractionNotAllowed

            else:

                rsrcmgr = PDFResourceManager()

                laparams = LAParams()

                device = PDFPageAggregator(rsrcmgr, laparams=laparams)

                interpreter = PDFPageInterpreter(rsrcmgr, device)

                for page in doc.get_pages():

                    interpreter.process_page(page)

                    layout = device.get_result()

                    for x in layout:

                        if isinstance(x, LTTextBoxHorizontal):

                            with open(output, 'a', encoding='utf-8') as f1:

                                results = x.get_text()

                                f1.write(results+'\n')

        return True

    except Exception as e:

        print(e)

        return False

def main():

    # rc = doc2pdf(input, output)

    # rc = doc2html(input, output)

    input = r'F:\save_data\流畅的Python.pdf'

    output = r'F:\save_data\test.doc'

    rc = pdf2doc(input, output)

    if rc:

        print('转换成功')

    else:

        print('转换失败')

if __name__ == '__main__':

    main()

以上其实是通过com来调用office API，其他语言貌似也可以

当然你也可以用上面的代码将word文件转换成任意格式文件（只要office 2007支持，比如将word文件转换成PDF文件，把8改成17即可），下面是office 2007支持的全部文件格式对应表：

wdFormatDocument                    = 0
wdFormatDocument97                  = 0
wdFormatDocumentDefault             = 16
wdFormatDOSText                     = 4
wdFormatDOSTextLineBreaks           = 5
wdFormatEncodedText                 = 7
wdFormatFilteredHTML                = 10
wdFormatFlatXML                     = 19
wdFormatFlatXMLMacroEnabled         = 20
wdFormatFlatXMLTemplate             = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML                        = 8
wdFormatPDF                         = 17
wdFormatRTF                         = 6
wdFormatTemplate                    = 1
wdFormatTemplate97                  = 1
wdFormatText                        = 2
wdFormatTextLineBreaks              = 3
wdFormatUnicodeText                 = 7
wdFormatWebArchive                  = 9
wdFormatXML                         = 11
wdFormatXMLDocument                 = 12
wdFormatXMLDocumentMacroEnabled     = 13
wdFormatXMLTemplate                 = 14
wdFormatXMLTemplateMacroEnabled     = 15
wdFormatXPS                         = 18照着字面意思应该能对应到相应的文件格式，如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

参考自https://blog.csdn.net/binger819623/article/details/6770932

python3将docx转换成pdf,html文件,pdf转doc文件的更多相关文章

OpenOffice将MS docx转换成pdf文件偶数页眉不显示问题解决办法
OpenOffice版本:4.0(Windows.Linux下测试都出现问题) MS Office版本:2007 问题描述使用OpenOffice将MS的docx文件转换为pdf文件时,docx文件 ...
用java代码把docx转换成pdf文件
import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.nio ...
结合Vim ghostscript 将源代码文件转换成语法高亮的pdf格式文档
step 1: 安装ghostscript (debian 环境, 其他环境自行google) sudo apt-get install ghostscript step 2: 用Vim生成ps文件 ...
Wavefront OBJ 转换成OpenGL ES使用的C/C++文件
项目需要展示3D max模型,通过调研
python3 变量格式化转换成字符串
num=3 str='I am %f years old' % (num) print(str) 输出 I am 3.000000 years old
014_编写批量修改扩展名脚本,如批量将 txt 文件修改为 doc 文件
#!/bin/bash#执行脚本时,需要给脚本添加位置参数带参for i in "ls *.$1"do #去尾 mv $i ${i%.*}.$2done
nodejs将PDF文件转换成txt文本，并利用python处理转换后的文本文件
目前公司Web服务端的开发是用Nodejs,所以开发功能的话首先使用Nodejs,这也是为什么不直接用python转换的原因. 由于node对文本的处理(提取所需信息)的能力不强,类似于npm上的包: ...
linux环境php将word转换成pdf
原文地址:http://www.niu12.com/article/15 ubuntu.java环境.openoffice.jodConverter.php 1.安装java环境 a. jdk下载(我 ...
html5中将图片的绝对路径转换成文件对象
html5中将图片的绝对路径转换成文件对象将图片的绝对路径转换成base64编码,请看这篇文章我们先来理解基本知识点: 1. 理解HTML5中的FileList对象与file对象. 在HTML5中 ...

随机推荐

python 字典value排序
#!/usr/bin/env python#coding:utf-8s = {“a”:1,”b”:3,”c”:2} print sorted(s.iteritems(),key=lambda t:t[ ...
mysql5.7 ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
mysql5.7初次登录使用提示 ERROR 1820 (HY000): You must reset your password using ALTER USER statement before ...
EF框架的优点是什么？
在.Net Framework SP1微软包含一个实体框架(Entity Framework),此框架可以理解成微软的一个ORM产品.用于支持开发人员通过对概念性应用程序模型编程(而不是直接对关系存储 ...
Pygame-依葫芦画瓢之兔獾大战
Pygame-依葫芦画瓢之兔獾大战前几天看到国外一个12岁的孩子写的兔獾大战游戏,心生敬佩,想当年我还是12岁的时候还不知电脑为何物,连小霸王都未曾玩过.自己也未曾想去搞游戏开发,纯属自娱自乐.在此 ...
微擎系统BUG漏洞解决方法汇总（原创）
微擎微赞系统BUG漏洞解决方法汇总弄了微擎系统来玩玩,发觉这个系统BUG还不少,阿里云的提醒都一大堆,主要是没有针对SQL注入做预防,处理的办法基本都是用转义函数. 汇总: 1. 漏洞名称: 微擎任 ...
K8S的APISERVER，应用了HTTPS之后，命令行如何访问？
用命令行总是很麻烦,因为要自定义一些证书的位置....... curl https://1.2.3.1:443/api/v1/nodes \ --cacert /etc/kubernetes/pki/ ...
Exception异常处理机制
为什么要自定义自己的Exception ,Java Exception机制与传统的C语言的异常处理机制有什么不同,这种Exception机制的意义在什么地方?接下来咱就来和你一起探讨Exception ...
转：使用IDA动态调试WanaCrypt0r中的tasksche.exe
逆向分析——使用IDA动态调试WanaCrypt0r中的tasksche.exe 转:http://www.4hou.com/technology/4832.html 2017年5月19日发布导语: ...
HDU 2089 不要62【数位DP入门题】
不要62 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submis ...
主元素 II
主元素 II 给定一个整型数组,找到主元素,它在数组中的出现次数严格大于数组元素个数的三分之一. 样例给出数组[1,2,1,2,1,3,3] 返回 1 注意数组中只有唯一的主元素挑战要求时间复 ...

python3将docx转换成pdf,html文件,pdf转doc文件

python3将docx转换成pdf,html文件,pdf转doc文件的更多相关文章

随机推荐

热门专题