python如何实现对word内段落文本及表格的读取

在以下方法中用到的三方库是：python-docx

from docx import Document

获取指定段落的文本

def get_paragraph_text(path, n):

    """

    获取指定段落的文本

    :param path: word路径

    :param n: 第几段落，从0开始计数

    :return: word文本

    """

    document = Document(path)

    all_paragraphs = len(document.paragraphs)

    if all_paragraphs >= n:

        paragraph_text = document.paragraphs[n].text

        return paragraph_text

    else:

        raise IndexError('paragraph index (%s) out of range, in total %s' % (n, all_paragraphs))

获取全部段落的文本

def get_paragraphs_text(path):

    """

    获取所有段落的文本

    :param path: word路径

    :return: list类型，如：

        ['Test', 'hello world', ...]

    """

    document = Document(path)

    all_paragraphs = document.paragraphs

    paragraphs_text = []

    for paragraph in all_paragraphs:

        paragraphs_text.append(paragraph.text)

    return paragraphs_text

获取所有表格的文本

def get_all_tables_text(path):

    """

    获取word中所有表格的文本

    :param path: word路径

    :return: list类型的二维数组

        如：[['年龄', '排序'], ['23', '00',], ...]

    """

    document = Document(path)

    all_tables = document.tables

    text_list = []

    for table in all_tables:

        for row in table.rows:

            text = []

            for cell in row.cells:

                text.append(cell.text)

            text_list.append(text)

    return text_list

获取指定表格的文本

def get_table_text(path, n=0):

    """

    获取word中的第n个表格的文本

    :param path: word路径

    :param n: 第几个表格，从0开始计算

    :return: list类型的二维数组

        如：[['年龄', '排序'], ['23', '00',], ...]

    """

    document = Document(path)

    all_tables = len(document.tables)

    if all_tables >= n:

        table = document.tables[n]

        text_list = []

        for row in table.rows:

            text = []

            for cell in row.cells:

                text.append(cell.text)

            text_list.append(text)

        return text_list

    else:

        raise IndexError('table index (%s) out of range, in total %s' % (n, all_tables))

获取指定表格内指定单元格文本

def get_cell_text(path, n=0, row=0, col=0):

    """

    获取某个表格的某个单元格的值

    :param path: word路径

    :param n: 第几个表格，从0开始计算

    :param row: 第几行，从0开始计算

    :param col: 第几列，从0开始计算

    :return: 单元格的值，str类型

    """

    document = Document(path)

    all_tables = len(document.tables)

    if all_tables >= n:

        rows = len(document.tables[n].rows)

        cols = len(document.tables[n].columns)

        if rows > row and cols > col:

            tab = document.tables[n].rows[row].cells[col]

            return tab.text

        else:

            raise IndexError('cell index out of range, %s;%s' % (row, col))

    else:

        raise IndexError('table index (%s) out of range, in toatl %s' % (n, all_tables))

python如何实现对word内段落文本及表格的读取的更多相关文章

python 使用win32com实现对word文档批量替换页眉页脚
最近由于工作需要,需要将70个word文件的页眉页脚全部进行修改,在想到这个无聊/重复/没有任何技术含量的工作时,我的内心是相当奔溃的.就在我接近奔溃的时候我突然想到完全可以用python脚本来实现这 ...
用 Python 脚本实现对 Linux 服务器的监控
目前 Linux 下有一些使用 Python 语言编写的 Linux 系统监控工具比如 inotify-sync(文件系统安全监控软件).glances(资源监控工具)在实际工作中,Linux 系统 ...
用 Python 脚本实现对 Linux 服务器的网卡流量监控
*这篇文章网上已经有相关代码,为了加深印象,我做了相关批注,希望对朋友们有帮助工作原理:基于/proc文件系统 Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新 ...
jeecms系统使用介绍——通过二次开发实现对word、pdf、txt等上传附件的全文检索
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/76912307 本文出自[我是干勾鱼的博客] 之前在文章<基于Java的门户 ...
Python中实现对list做减法操作介绍
Python中实现对list做减法操作介绍这篇文章主要介绍了Python中实现对list做减法操作介绍,需要的朋友可以参考下问题描述:假设我有这样两个list, 一个是list1,list1 = ...
【POI word】使用POI实现对Word的读取以及生成
项目结构如下: 那第一部分:先是读取Word文档 package com.it.WordTest; import java.io.FileInputStream; import java.io.Fil ...
Java 在Word指定段落/文本位置插入分页符
在Word插入分页符可以在指定段落后插入,也可以在特定文本位置处插入.本文,将以Java代码来操作以上两种文档分页需求.下面是详细方法及步骤. [程序环境] 在程序中导入jar,如下两种方法: 方法1 ...
利用COM组件实现对WORD书签各种操作大全，看这一篇就够了
有个需求是,程序导出一份word报告,报告中有各种各样的表格,导出时还需要插入图片. 脑海中迅速闪过好几种组件,openxml组件,com组件,npoi.为了减少程序画复杂表格,我们选用了com组件+ ...
C#实现对Word文件读写[转]
手头上的一个项目报表相对比较简单,所以报表打印采用VBA引擎,通过定制Word模版,然后根据模版需要填充数据,然后OK,打印即可. 实现方法:首先需要引用VBA组建,我用的是Office2003 Pr ...
Python 脚本实现对 Linux 服务器的监控
本文来自我的github pages博客http://galengao.github.io/ 即www.gaohuirong.cn 摘要: 原文地址由于原文来自微信公众号,并且脚本都是图片,所以这里 ...

随机推荐

微信带参数的小程序码生成并上传到七牛云（java）
在大家看正式内容之前请耐心的听我把这段话说完:我冒昧的猜一下,你为了解决问题估计已经看了很多文章了,如果这边文章能给你带来帮助,不胜荣幸,如果有错误也请批评指正,共同进步,我之前在完成这个功能之前,从 ...
go-fastdfs断点续传功能
1)安装go-fastdfs: 可以从GitHub上获取go-fastdfs的源码,然后使用go get命令安装: go get github.com/sjqzhang/go-fastdfs 2)安装 ...
pyqt5中文教程
本文转载自:http://code.py40.com/pyqt5/ 一.PyQt5基本功能简单的例子 PyQt5是一种高级的语言,下面只有几行代码就能显示一个小窗口.底层已经实现了窗口的基本功能. ...
scp 和 rsync
scp 和 rsync指令的区别相同点两者都可以被用来进行数据同步不同点 : 对于scp来讲是全量复制以当前主机为准将相同的文件拷贝到另一台机器上 rsync 可以识别增量的内容,可以仅仅对 ...
SQL server 去掉重复数据
只要数据表"列名"数据相同,则说明是两条重复的数据(ID为数据表的主键自动增长). 推荐使用方法一 -- 方法一 select * from 表名 A where not exis ...
CompletableFuture使用方法的详细说明
异步执行一个任务时,我们一般是使用自定义的线程池Executor去创建执行的.如果不需要有返回值, 任务实现Runnable接口:如果需要有返回值,任务实现Callable接口,调用Executor的 ...
python爬虫cookies jar与字典转换
#将CookieJar转为字典: cookies = requests.utils.dict_from_cookiejar(r.cookies) #将字典转为CookieJar: cookies = ...
Maven简答题
1.什么是Maven? 自动化构建工具,专注服务于Java平台的项目构建和依赖管理 2.使用Maven的好处以及原因? (1)大量的jar包反复复制,造成冗余.使用Maven后每个jar包只在本地仓库 ...
解决命令行窗口执行godoc报错
在cmd命令行窗口执行godoc报错: 'godoc' is not recognized as an internal or external command,operable program or ...
windows10本地联调zk环境报异常SASL config status: Will not attempt to authenticate using SASL (unknown error)
感谢原文:https://blog.csdn.net/qq_43639296/article/details/123282280 SASL config status: Will not attemp ...

python如何实现对word内段落文本及表格的读取

获取指定段落的文本

获取全部段落的文本

获取所有表格的文本

获取指定表格的文本

获取指定表格内指定单元格文本

python如何实现对word内段落文本及表格的读取的更多相关文章

随机推荐

热门专题