Python读取word文档内容
1,利用python读取纯文字的word文档,读取段落和段落里的文字。
先读取段落,代码如下:
1 '''
2 #利用python读取word文档,先读取段落
3 '''
4 #导入所需库
5 from docx import Document
6
7 #打开word文档
8 document = Document("D:/路径/长恨歌.docx")
9
10 #获取所有段落
11 all_paragraphs = document.paragraphs
12 #打印看看all_paragraphs是什么东西
13 print(type(all_paragraphs)) #<class 'list'>,打印后发现是列表
14 #是列表就开始循环读取
15 for paragraph in all_paragraphs:
16 #打印每一个段落的文字
17 print(paragraph.text)
效果:

再读取段落里的内容,代码如下:
1 '''
2 #利用python读取word文档
3 '''
4 #导入所需库
5 from docx import Document
6
7 #打开word文档
8 document = Document("D:/路径/长恨歌.docx")
9
10 #获取所有段落
11 all_paragraphs = document.paragraphs
12 #打印看看all_paragraphs是什么东西
13 print(type(all_paragraphs)) #<class 'list'>,打印后发现是列表
14 #是列表就开始循环读取
15 for paragraph in all_paragraphs:
16 #打印每一个段落的文字
17 #print(paragraph.text)
18 #循环读取每个段落里的run内容
19 for run in paragraph.runs:
20 print(run.text) #打印run内容
效果如下:

其实都准确的获取了文字内容,但是paragraph是保留了word文档里的换行符,而run是没有保留的。
2,利用python读取纯表格文档,那要读取的文字都是存储在单元格里,需要读取单元格里的内容:
1 '''
2 #利用python读取word文档,表格文档
3 '''
4 #导入所需库
5 from docx import Document
6
7 #打开文件
8 document = Document("D:/路径/长恨歌-表格.docx")
9 #获取文档所有表格
10 all_tables = document.tables
11
12 #打印all_tables类型
13 print(type(all_tables)) #得到<class 'list'>,即列表
14 #开始循环读取表格列表
15 for table in all_tables:
16 #循环读取表格的每一行
17 for row in table.rows:
18 #print(row)
19 #循环读取表格的每一个单元格
20 for cell in row.cells:
21 #打印单元格里的内容
22 print(cell.text) #打印
3,利用python读取word文档,文档是表格加文字组合而成的。这个就设计word文档格式问题了。将要处理的word文档后缀名改为zip,发现也可以打开,里面有几个文件如图:

点开word目录,发现有个document.xml,这就是我们要处理的文件。

代码开始:
1 '''
2 #利用python读取word文档,表格文档
3 '''
4 #导入所需库
5 import zipfile #解压文件库
6 #先将要处理的word文档用zipfile进行压缩
7 word = zipfile.ZipFile('D:/路径/长恨歌-文字+表格.docx')
8
9 #找到要处理的xml文件并以utf-8的格式读取
10 xml = word.read('word/document.xml').decode('utf-8')
11 #打印看看
12 #print(type(xml)) #字符串
13 #print(xml) #打印整个字符串
14 #接下来分割字符串并存储到列表中
15 xml_list = xml.split('<w:t>') #以字符串<w:t>进行分割字符串
16 #打印看是否符合预期
17 #print(type(xml_list)) #是列表
18 #print(xml_list) #列表内容
19
20 #开始切片,找标签</w:t>
21 text_list = [] #新建空list用以存储切出来的数据
22 #开始循环读取列表xml_list
23 for i in xml_list:
24 #条件查找
25 if i.find('</w:t>') + 1: #切片查找是如果没找到是会返回-1,我们+1让他返回0,再运行else分支
26 text_list.append(i[:i.find('</w:t>')]) #如果不是返回0就把找到的依次追加到text_list末尾
27 else:
28 pass
29 #print(text_list)
30 #再将得到的列表拆分为字符串
31 text = ''.join(text_list) #以空字符串为间隔,将列表拆分为字符串
32 print(text)
第三个表格加文字的取出文字有点绕,多处理几遍就行了。
Python读取word文档内容的更多相关文章
- Python读取word文档(python-docx包)
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
- C#读取Word文档内容代码
首先要添加引用com组件:然后引用: using Word = Microsoft.Office.Interop.Word; 获取内容: /// /// 读取 word文档 返回内容 /// //// ...
- ASP 读取Word文档内容简单示例
以下通过Word.Application对象来读取Doc文档内容并显示示例. 下面进行注册Word组件:1.将以下代码存档命名为:AxWord.wsc XML code复制代码 <?xml ve ...
- 2018-10-04 [日常]用Python读取word文档中的表格并比较
最近想对某些word文档(docx)的表格内容作比较, 于是找了一下相关工具. 参考Automate the Boring Stuff with Python中的word部分, 试用了python-d ...
- python读取word文档
周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单. 通过搜索,确实搜到了一个python操作word的模块,pytho ...
- 使用NPOI读取Word文档内容并进行修改
前言 网上使用NPOI读取Word文件的例子现在也不少,本文就是参考网上大神们的例子进行修改以适应自己需求的. 参考博文 http://www.cnblogs.com/mahongbiao/p/376 ...
- Python读取本地文档内容并发送邮件
当需要将本地某个路径下的文档内容读取后并作为邮件正文发送的时候可以参考该文,使用到的模块包括smtplib,email. #! /usr/bin/env python3 # -*- coding:ut ...
- ASP 读取Word文档内容简单示例_组件开发_新兴网络_20161014161610.jpg
- 使用python编辑和读取word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. python-docx官方文档地址 使用python新建一个word文档,操作就像文档里介绍的那样: fr ...
随机推荐
- Dynamics 365-表单元素取值/赋值
取值/赋值 参考: 山人丶 提示: 查找类型赋值时需指定目标实体,记录名称及id值 时间和日期类型赋值时需赋值Date类型 //获取new_name的值(单行文本) Xrm.Page.getAttri ...
- T - Permutation 题解(思维+dp)
题目链接 题目大意 给你一个数字n和长为n-1个字符串 字符串包含'<','>' 若s[i]='<' 则代表a[i]<a[i+1] 若s[i]='>' 则代表a[i]&g ...
- Java基础教程——File类、Paths类、Files类
File类 File类在java.io包中.io代表input和output,输入和输出. 代表与平台无关的文件和目录. 可以新建.删除.重命名,但不能访问文件内容. File类里的常量: impor ...
- HEXO | 给博客添加RSS
Hexo是一个简洁.高效.易用的博客框架,同时它拥有十分丰富的主题环境,本次我们所谈到的是cards主题,但是该主题的原生环境里没有相关的rss配置,所以我们需要采用手动添加的方式,进而实现rss功能 ...
- SSM之Spring框架--->>墨盒案例
分析: 程序中包括打印机(Printer).墨盒(Ink).和纸张(Paper).三类组件 首先创建一个新项目文件Spring_Box 我们来定义墨盒和纸张的接口类 墨盒接口Ink.java文件内容如 ...
- PyQt(Python+Qt)学习随笔:QTableView的gridStyle属性
老猿Python博文目录 老猿Python博客地址 概述 gridStyle属性用于控制视图数据网格的样式,此属性只有在showGrid属性为True时才有作用. gridStyle属性取值含义 gr ...
- PyQt(Python+Qt)学习随笔:Designer中不能编辑信号和槽的问题
新建了一个窗口部件,在窗口上添加了相关布局,再设置窗口窗口的布局为垂直布局,窗口设计好界面后如图所示: 可以看到窗口是QWidget类,窗口上从上到下有三个布局,窗口自身的布局为垂直布局,布局名为ve ...
- 性能测试平台nGrinder
ngrinder简介 ngrinder是NAVER(韩国大型互联网公司)开源的性能测试工具平台,直接部署成web服务,平台化,支持多用户使用,可扩展性好,可自定义plugin插件 开源地址:http: ...
- 步步为营,打造CQUILib UI框架库
步步为营,打造CQUILib UI框架库 UI框架包括如下几个方面:: 丰富的UI控件 窗口管理 主题 多语言 托盘 视图与业务解耦 登录框效果如下:: 提示框效果如下:: 后续讲解如何步步为营,打造 ...
- EF CodeFirst多个数据摸型映射到一张表与各一张表
1. 多个实体映射到一张表 Code First允许将多个实体映射到同一张表上,实体必须遵循如下规则: 实体必须是一对一关系 实体必须共享一个公共键 我们通常有这样的需求,如:同一基类派生出的不同数据 ...