用python解析word文件（一）：paragraph

太长了，我决定还是拆开三篇写。

（一）段落篇（paragraph）（本篇）

（二）表格篇（table）

（三）样式篇（style）

选你所需即可。下面开始正文。

最近公司的项目，需要在页面上显示word文件的内容。我找了几个前端写法，都没用明白（因为我前端太渣），用起来简单的要么收费，要么加了水印。那怎么办捏？

唉，还是按毛主席说的，自己动手，丰衣足食吧！

感谢徒弟给打下的基础，我不用挨个碰壁，直接就选择了python-docx这个库。当然，它也只能解析docx文件，解析不了doc文件。安装方式直接pip就可以。下面我们就正式开始解析的过程。

在word中的一个自然段，就是一个paragraph，用最简单的方式

docx.paragraphs

就可以获得全部的段落。这是一个可迭代的类型，类似于数组如果我们用

p=docx.paragraphs[0]

就可以直接获得文章中的第一段，而接下来

p.text

就是第一段的全部文字内容。如果我们连贯起来写，代码应该是酱婶滴：

for p in docx.paragraphs:

    print(p.text)

怎么样，是不是很方便？

不过，这样仅仅是获得了文字内容，而把格式全丢了。我说的格式，是加粗，颜色，居中等等这些排版设计的东西。在paragraph中，这些东西叫做run。一个段落是由许多run组成的，就像这样：

而获得run其实也是非常简单的：

p.runs

即可。这同样是个可迭代的类型，可以循环获得每一个run相关的内容，比如alignment（对齐方式），bold（加粗），italic（斜体），text（具体文本内容）等等。

可以用dir或help来查看具体的方法使用，内容有点多，我就不挨个介绍了。我只想吐槽一点，我也不知道word中这一堆run是如何来区分的。比如上面的截图，中英文分开不同的run我可以理解，但是前面那些run似乎没有什么道理。也许跟word的中文分词方式有关？

但是，如果设置了不同的样式，那么肯定会分成不同的run的。

通过查方法不难看出，python-docx这个包，不仅可以读出paragraph的内容，还可以往里面写。可以使用add_paragraph()方法来添加内容。大概这样：

doc.add_paragraph(u'第一段',style=None)

doc.add_paragraph(u'第二段',style='Heading 2')

p = doc.add_paragraph('')

p.add_run('第三段', style=None)

p.add_run('', style="Heading 1 Char")

p.add_run('')

p.add_run('', style="Heading 2 Char")

而对于每一个属性，都可以查看它的类型，这个类型一般在docx中是个枚举类型的常量，放在docx.enum.text这个头文件中。使用方法可以这样：

if p.alignment == WD_PARAGRAPH_ALIGNMENT.CENTER:

    # todo

当然，我所做的这堆工作，目的其实不仅仅是为了获得文件内容，还要放在页面上展示。有了上面的属性，做起来就简单多了。

html = "<p"

if title in self.paragraph.text and len(self.paragraph.text) < 15:

    html += " style=\"text-align: center; font-size: 30px\">"

elif self.paragraph.alignment == WD_PARAGRAPH_ALIGNMENT.CENTER:

    html += " style=\"text-align: center; font-size: 15px\">"

elif self.paragraph.alignment == WD_PARAGRAPH_ALIGNMENT.RIGHT:

    html += " style=\"text-align: right; font-size: 15px\">"

else:

    html += " style=\"font-size: 15px\">"

html += "%s</p>" % p

这样其实是用代码活生生地生成了一段html。如果是用jinja模板的框架，可以吧这段html直接通过view传到页面上，然后在页面上使用

{{ paragraph|safe }}

来展示。

注意这里的safe过滤器，这个是必须的，否则会尴尬地发现，html代码不会转义，会原样输出出来。

当然，还有更尴尬的。有一个问题我还没有解决，那就是列表，我找了好久都没有找到自动编号的位置，甚至去读了word生成的xml文档——word可以另存为xml格式，也可以在python-docx中通过

p.paragraph_format.element.xml

方法获得段落的xml——但是分析了半天，我都没弄清楚段落的自动编号是如何生成的，留下了一个巨大的遗憾。

写一篇就介绍到这里吧，内容还是相对简单一些，因为paragraph还是相对比较好取的。下一篇我将介绍一下table的解析。

用python解析word文件（一）：paragraph的更多相关文章

用python解析word文件（二）：table
太长了,我决定还是拆开三篇写. (一)段落篇(paragraph) (二)表格篇(table)(本篇) (三)样式篇(style) 选你所需即可.下面开始正文. 上一篇我们讲了用python-do ...
用python解析word文件（三）：style
太长了,我决定还是拆开三篇写. (一)段落篇(paragraph) (二)表格篇(table) (三)样式篇(style)(本篇) 选你所需即可.下面开始正文. 在前两篇中,我们已经解析出了par ...
用python解析word文件（段落篇（paragraph）表格篇（table）样式篇（style））
首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docxfrom docx import Document #导入库 path ...
用python读取word文件里的表格信息【华为云技术分享】
在企查查查询企业信息的时候,得到了一些word文件,里面有些控股企业的数据放在表格里,需要我们将其提取出来. word文件看起来很复杂,不方便进行结构化.实际上,一个word文档中大概有这么几种类型的 ...
C#仪器数据文件解析-Word文件（doc、docx）
不少仪器数据报告输出为Word格式文件,同Excel文件,Word文件doc和docx的存储格式是不同的,相应的解析Word文件的方式也类似,主要有以下方式: 1.通过MS Word应用程序的DCOM ...
Python处理word文件
python对word文件进行读写和复制 import win32conimport win32com.clientimport os #读取word文件def readWoldFile(path): ...
Python解析Wav文件并绘制波形的方法
资源下载 #本文PDF版下载 Python解析Wav文件并绘制波形的方法 #本文代码下载 Wav波形绘图代码 #本文实例音频文件night.wav下载音频文件下载 (石进-夜的钢琴曲) 前言在现在 ...
用Python将word文件转换成html（转）
用Python将word文件转换成html 序最近公司一个客户大大购买了一堆医疗健康方面的科普文章,希望能放到我们正在开发的健康档案管理软件上.客户大大说,要智能推送!要掌握节奏!要深度学习!要 ...
Python解析excel文件并存入sqlite数据库
最近由于工作上的需求需要使用Python解析excel文件并存入sqlite 就此做个总结功能:1.数据库设计建立数据库2.Python解析excel文件3.Python读取文件名并解析4.将解 ...

随机推荐

Head First Python学习笔记4——处理数据
有这么几组数据需要你处理: James 2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22 Julia 2.59,2.11,2:11,2:23,3-10,2-23 ...
__block和__weak修饰符的区别
block下循环引用的问题 __block本身并不能避免循环引用,避免循环引用需要在block内部把__block修饰的obj置为nil __weak可以避免循环引用,但是其会导致外部对象释放了之后, ...
cv程序员的日常_1
某天pom文件粘贴报红然后我就问我同事然后我就百度 https://blog.csdn.net/guoyiyun_tz/article/details/82115024 看完之后…emmmm没错啊 ...
Extjs checkbox数值回显
昨天上午花了半天时间都在调 extjs的编辑页面里的CheckBox的回显问题,一直没搞定,毕竟我接触extjs才一个月不到,属于小白.先上个图: 这就是编辑页面的时候,需要的效果.然后我代码里是用了 ...
ASP.NET Core 2 学习笔记（十三）Swagger
Swagger也算是行之有年的API文件生成器,只要在API上使用C#的<summary />文件注解标签,就可以产生精美的线上文件,并且对RESTful API有良好的支持.不仅支持生成 ...
javascript面向对象的常见写法与优缺点
我们通过表单验证的功能,来逐步演进面向对象的方式. 对于刚刚接触javascript的朋友来说,如果要写一个验证用户名,密码,邮箱的功能, 一般可能会这么写: //表单验证 var checkUs ...
解决win7无法打开chm格式文件的问题
解决win7无法打开chm格式文件的问题. (一).简单方法(本人用的这个) 1.打开chm2.win7提示安全问题3.chm无法显示内容4.关闭chm5.右键点击chm,点击“解除锁定”,ok 没 ...
redis window 安装测试--记录
1.下载地址https://github.com/dmajkic/redis/downloads 2.打开一个cmd窗口,使用cd命令切换到指定目录(D:\redis\64bit)运行 redis-s ...
请求包含（Include）和请求转发（Forward）
定义请求包含是指将另一个Servlet的请求处理流程包含进来. 请求转发是指将请求转发给别的Servlet处理. 实现实现请求包含和请求转发,可以使用HttpServletRequest的getR ...
private 与 super
public class Person { private String name; private int age; } public class Student extends Person { ...

用python解析word文件（一）：paragraph

用python解析word文件（一）：paragraph的更多相关文章

随机推荐

热门专题