python读取word中的段落、表、图+++++++++++Doc转换Docx

读取文本、图、表、解压信息

import docx

import zipfile

import os

import shutil

'''读取word中的文本'''

def gettxt():

    file=docx.Document("gao.docx")

    print("段落数:"+str(len(file.paragraphs)))#段落数为13，每个回车隔离一段

    #输出每一段的内容

    # for para in file.paragraphs:

    #     print(para.text)

    #输出段落编号及段落内容

    for i in range(len(file.paragraphs)):

        if len(file.paragraphs[i].text.replace(' ',''))>4:

            print("第"+str(i)+"段的内容是："+file.paragraphs[i].text)

'''读取word中的table''' 

def gettable():

    doc = docx.Document('word.docx')

    for table in doc.tables:  # 遍历所有表格

        print ('----table------')

        for row in table.rows:  # 遍历表格的所有行

            # row_str = '\t'.join([cell.text for cell in row.cells])  # 一行数据

            # print row_str

            for cell in row.cells:

                print (cell.text, '\t')

'''获取解压后的文件信息'''

def getinfo(wordfile):

    f=zipfile.ZipFile(wordfile,'r')

    for filename in f.namelist():

        f.extract(filename)

        print(filename)

'''

输出解压后的信息：

_rels/

_rels/.rels

customXml/

customXml/_rels/

customXml/_rels/item1.xml.rels

customXml/_rels/item2.xml.rels

customXml/item1.xml

customXml/item2.xml

customXml/itemProps1.xml

customXml/itemProps2.xml

docProps/

docProps/app.xml

docProps/core.xml

docProps/custom.xml

docProps/thumbnail.wmf

word/

word/_rels/

word/_rels/document.xml.rels

word/document.xml

word/fontTable.xml

word/media/

word/media/image1.jpeg

word/numbering.xml

word/settings.xml

word/styles.xml

word/theme/

word/theme/theme1.xml

'''

'''

------获取图：

word文档的路径

zip压缩文件的路径

临时解压的tmp路径

最后需要保存的store_path路径

'''

def getpic(path, zip_path, tmp_path, store_path):

    '''

    :param path:源文件

    :param zip_path:docx重命名为zip

    :param tmp_path:中转图片文件夹

    :param store_path:最后保存结果的文件夹（需要手动创建）

    :return:

    '''

    '''=============将docx文件重命名为zip文件===================='''

    os.rename(path, zip_path)

    # 进行解压

    f = zipfile.ZipFile(zip_path, 'r')

    # 将图片提取并保存

    for file in f.namelist():

        f.extract(file, tmp_path)

    # 释放该zip文件

    f.close()

    '''=============将docx文件从zip还原为docx===================='''

    os.rename(zip_path, path)

    # 得到缓存文件夹中图片列表

    pic = os.listdir(os.path.join(tmp_path, 'word/media'))

    '''=============将图片复制到最终的文件夹中===================='''

    for i in pic:

        # 根据word的路径生成图片的名称

        new_name = path.replace('\\', '_')

        new_name = new_name.replace(':', '') + '_' + i

        shutil.copy(os.path.join(tmp_path + '/word/media', i), os.path.join(store_path, new_name))

    '''=============删除缓冲文件夹中的文件，用以存储下一次的文件===================='''

    for i in os.listdir(tmp_path):

        # 如果是文件夹则删除

        if os.path.isdir(os.path.join(tmp_path, i)):

            shutil.rmtree(os.path.join(tmp_path, i))

if __name__ == '__main__':

    # 源文件

    path = r'E:\dogcat\提取图片\log.docx'

    # docx重命名为zip

    zip_path = r'E:\dogcat\提取图片\log.zip'

    # 中转图片文件夹

    tmp_path = r'E:\dogcat\提取图片\tmp'

    # 最后保存结果的文件夹

    store_path = r'E:\dogcat\提取图片\测试'

    m = getpic(path, zip_path, tmp_path, store_path)

至于处理doc文件直接转存成docx文件就可以了

def docTTTTTdocx(doc_name, docx_name):    
　　try:

        # 首先将doc转换成docx

        word = client.Dispatch("Word.Application")

        doc = word.Documents.Open(doc_name)

        # 使用参数16表示将doc转换成docx

        doc.SaveAs(docx_name, 16)

        doc.Close()

        word.Quit()

    except:

        pass

这里如果转换不成功，可能是路径的问题，把doc_name换成完整路径，如下：

from win32com.client import Dispatch

def docToDocxR(docPath, docxPath):
    '''将doc转存为docx'''
    word = Dispatch('Word.Application')
    pathPrefix = sys.path[0]+'\\'
    print(pathPrefix)
    doc = word.Documents.Open(pathPrefix+docPath)
    doc.SaveAs(pathPrefix+docxPath, FileFormat=12)
    doc.Close()
    word.Quit()

参考:

https://blog.csdn.net/qq_40925239/article/details/83279957

https://blog.csdn.net/qq_15969343/article/details/81673970

python读取word中的段落、表、图+++++++++++Doc转换Docx的更多相关文章

Python 读取word中表格数据、读取word修改并保存、替换word中词汇、读取word中每段内容，读取一段话中相同样式内容，理解Document中run
from docx import Document path = r'D:\pywork\12' # word信息表所在文件夹 w = Document(path + '/' + 'word信息表.d ...
Python读取word文档内容
1,利用python读取纯文字的word文档,读取段落和段落里的文字. 先读取段落,代码如下: 1 ''' 2 #利用python读取word文档,先读取段落 3 ''' 4 #导入所需库 5 fro ...
使用python读取word，写入execl
word里面有2张表,需要找到第二张表,并写入execl中: 代码如下: #coding:utf-8 import os from docx import Document import win32c ...
Java读取word中表格
因为要新建一个站,公司要把word表格的部分行列存到数据库中.之前用java操作过excel,本来打算用java从word表格中读取数据,再存到数据库中,结果因为权限不够,无法访问公司要写的那个数据库 ...
Java 读取Word中的脚注、尾注
本文介绍读取Word中的脚注及尾注的方法,添加脚注.尾注可以参考这篇文章. 注:本文使用了Word类库(Free Spire.Doc for Java 免费版)来读取,获取该类库可通过官网下载,并解压 ...
VBA读取word中的内容到Excel中
原文:VBA读取word中的内容到Excel中 Public Sub Duqu() Dim myFile As String Dim docApp As Word.Applicati ...
Python读取excel中的图片
作为Java程序员,Java自然是最主要的编程语言.但是Java适合完成大型项目,对于平时工作中小的工作任务,需要快速完成,易于修改和调试,使用Java显得很繁琐,需要进行类的设计,打成jar包,出现 ...
python读取excel中单元格的内容返回的5种类型
(1) 读取单个sheetname的内容. 此部分转自:https://www.cnblogs.com/xxiong1031/p/7069006.html python读取excel中单元格的内容返回 ...
Python 读取文件中unicode编码转成中文显示问题
Python读取文件中的字符串已经是unicode编码,如:\u53eb\u6211,需要转换成中文时有两种方式 1.使用eval: eval("u"+"\'" ...

随机推荐

PIE 插件式开发小笔记__PIESDK学习体会
基于PIE.NET-SDK插件式二次开发文档笔记: PIE 插件式开发配置文件: 它里面一行如下: 理解上一行'Item'关系-> library:为插件类名(程序集名称+后缀 ...
2019 企叮咚java面试笔试题（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.企叮咚等公司offer,岗位是Java后端开发,因为发展原因最终选择去了企叮咚,入职一年时间了,也成为了面试官 ...
python调用腾讯云短信接口
目录 python调用腾讯云短信接口账号注册 python中封装腾讯云短信接口 python调用腾讯云短信接口账号注册去腾讯云官网注册一个腾讯云账号,通过实名认证然后开通短信服务,创建短信应用 ...
springmvc4 mybatis 整合框架源码 bootstrap html5 mysql oracle sqlsever spring SSM
A 调用摄像头拍照,自定义裁剪编辑头像 [新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统]B 集成代码生成器 [正反双向](单表.主表.明细表.树形表,开发利器)+快速构建表单; 技 ...
vim 如何复制文件中多行到另一个文件
1.打开文件 vim a.txt b.tx 或者 vim *.txt 2.文件间切换 :n 切换到下一个文件 :wn 保存再切换 :N 到上一个文件 :wN 保存再切换 :.= 看当前行 3.假定当前 ...
OSI、TCP/IP
计算机网络分层的目的:支持异构网络系统的互联互通 7层OSI参考模型是法定标准(国际标准化组织ISO提出) 4层TCP/IP参考模型是事实标准 OSI参考模型应用层.表示层.会话层.传输层.网络层. ...
【转】Pandas学习笔记（二）选择数据
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
js检测手机类型（android,ios,blackberry,windows等）
var isMobile = { Android: function() { return navigator.userAgent.match(/Android/i); }, BlackBerry: ...
Nginx反向代理服务器的安装与配置
Nginx反向代理服务器的安装与配置时间:10月19日 Nginx反向代理有不少需要我们解决的问题,其中有不少问题是基于安装上的问题,在安装完成后的相关调试也让很多人头疼不已.下面就向大家介绍有关于 ...
01-Eigen的安装
Ubuntu下: 使用的IDE是Kdevelop.(使用别的也可以) 安装Kdevelop的方法见: http://www.cnblogs.com/alexYuin/p/8989228.html 1. ...

python读取word中的段落、表、图+++++++++++Doc转换Docx

python读取word中的段落、表、图+++++++++++Doc转换Docx的更多相关文章

随机推荐

热门专题