- 写在前面

　　最近想练习英语，发现电脑磁盘中有很多流利阅读的资料，文件夹格式为:流利阅读201X年>X月>0101 2019 年度色发布：活力珊瑚橘>mp3、word。由于个人想整合下文章（仅新闻正文），方便打印。手动整理了几篇，发现挺耗时的。因此便想写个脚本，自动化操作。

- 环境配置安装

　　运行环境：Python3.6、Spyder

　　依赖模块：win32com、python-docx等

- 开始工作

1.新闻正文获取

　　一篇流利阅读文章结构有五个部分：今日导读、带着问题听讲解、新闻正文、重点词汇、拓展内容。我的目标就是提取每篇文章的新闻正文，具体方式是寻找到新闻正文开始与结束的段落，即可通过查找“新闻正文”，“重点词汇”可以得到

　　代码如下：

def getText(file):

    doc=docx.Document(file)

    start=0 #正文开始点

    end=0   #正文开始点

    state=1  #读取状态，1为成功，0为失败

    for i in range(len(doc.paragraphs)):

        if re.search('新闻正文',doc.paragraphs[i].text):

            start=i

        if re.search('重点词汇',doc.paragraphs[i].text):

            end=i

    if start==0 or end==0:

        state=0

    if state==1:

        fullText = []

        for j in range(end-start):

            pa=doc.paragraphs[start+j+1].text.strip('重点词汇')

            fullText.append(pa)

    else:

        print(filename+':  read failure!!!')

    return '\n'.join(fullText)

　　这里还有一个问题就是有些文章的格式是doc，由于python-docx仅支持docx，因此这里需要对doc文档进行转化成docx。即有：

    try:

        doc=docx.Document(file)

    except:           #doc转docx

        word = wc.Dispatch("Word.Application")

        doc = word.Documents.Open(file)

        (file_path, tempfilename) = os.path.split(file)

        (filename, extension) = os.path.splitext(tempfilename)

        #print(filename)

        file=file_path+filename+'.docx'

        doc.SaveAs(file, 12)   #12为docx

        doc.Close()

        doc=docx.Document(file)

2.文件名获取

　　我这里主要保存了文件名及其相应的文件地址。

#文件目录

path=''

titles1=os.listdir(path)

files=[]

files_name=[]

for title1 in titles1:

    titles2=os.listdir(path+'//'+title1)

    for title2 in  titles2:

        titles3=os.listdir(path+'//'+title1+'//'+title2)

        for title3 in titles3:

            if re.search('doc',os.path.splitext(title3)[1]):

                file=path+'//'+title1+'//'+title2+'//'+title3

                files.append(file)

                files_name.append(title2)

                continue

3.定位整合

　　由于我不想一次性打印这么多的文章，便想定位定数整合。

split=10  #文章数

where=10  #起始

new_doc=docx.Document()

for j in range(split):

    try:

        text=getText(files[j+where])

        new_doc.add_heading(files_name[j+where], 2)

        print(text)

        new_doc.add_paragraph(text)

    except:

        pass

new_doc.styles['Normal'].font.name = 'Times New Roman' #西文字体

new_doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑')#中文字体

new_doc.save('xx//流利阅读2019_'+str(where+1)+'_'+str(j+where)+'.docx')

- 结果展示

-写在最后

　　因本人能力有限且时间不足，所写的脚本简陋且冗杂（嗯，能满足我暂时需求就OK），望请多多包涵与指正。

　　另写这篇博客的初衷是分享关于word操作的一些实例，希望对你有所帮助。

　　PS：本文所提及的XX阅读仅供个人学习使用，不进行网络传播，本人概不负相关法律责任。

某阅读多word整理自动化脚本的更多相关文章

Jmeter 接口自动化-脚本数据分离实例
一. 背景: 为了让大家更加的了解Jmeter,并且使用起来游刃有余.这篇我们主要讲一下,如何优雅的使用Jmeter一步步的实现接口自动化,完成脚本与数据分离,把可能对Jmeter脚本的维护转移到c ...
《手把手教你》系列基础篇（五）-java+ selenium自动化测试- 创建首个自动化脚本（详细教程）
1.简介前面几篇宏哥介绍了两种(java和maven)环境搭建和三大浏览器的启动方法,这篇文章宏哥将要介绍第一个自动化测试脚本.前边环境都搭建成功了,浏览器也驱动成功了,那么我们不着急学习其他内容, ...
Linux系统LVM逻辑卷创建过程以及自动化脚本
转至:https://cloud.tencent.com/developer/article/1068328 Linux系统LVM逻辑卷创建过程以及自动化脚本 2018-03-21阅读 6300 ...
自动化脚本中click()或sendKeys()没有反应
前提: 排除xpath引用错误或元素的xpath每次都不同的情形. 问题描述自动化脚本中click()方法和sendKeys()方法报错, 返回异常InvocationTargetException ...
appium-desktop录制脚本二次开发，生成我司自动化脚本
目的通过对appium-desktop脚本录制功能进行二次开发,使录制的java脚本符合我司自动化框架要求. 实现步骤 1.增加元素名称的输入框由于ATK(我司自动化测试框架)脚本中元素是以“ap ...
Jenkins构建自动化脚本执行无界面解决方法
场景: jenkins构建selenium自动化用例的时候,会有jenkins自带服务后台运行自动化脚本,可无界面运行IE.Chrome.Firefox. 然而运行IE浏览器时候(IE比较特殊),Je ...
【Zabbix】Zabbix-agent自动化脚本
zabbix-agent自动化脚本作用:批量部署zabbix-agent.用于上百台虚拟机都可以被Zabbix监控. 脚本名:inst-agent.sh #!/bin/bash echo " ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
PHP学习日记 Windows配置PHP+Nginx+自动化脚本
Windows配置PHP+Nginx+自动化脚本安装与配置 PHP 下载PHP:传送门选择合适的版本下载尽量选Thread Safe 配置PHP: 解压后在文件夹中找到php.ini-devel ...

随机推荐

jenkins安装插件一直不动
刷新界面即可,查看已安装的插件即可,这个时候已经安装完了,不用重启,直接使用插件即可
js文档系统-jsdoc-docdash
一.参考文档模版:https://github.com/clenemt/docdash 例子:http://clenemt.github.io/docdash/index.html jsdoc:ht ...
【转】mysql 存储过程的示例
原文地址:https://blog.csdn.net/lishaojun0115/article/details/50183661 begin #定义变量 declare local_sender v ...
微信浏览器内建的WeixinJSBridge 实现“返回”操作
微信浏览器内建的WeixinJSBridge 实现“返回”操作 WeixinJSBridge.call('closeWindow');
Appium移动自动化测试-----（十三）appium API 之其他操作
其它操作针对移动设备上特有的一些操作. 1.熄屏方法: * lockDevice() 点击电源键熄灭屏幕. 在iOS设备可以设置熄屏一段时间.Android上面不带参数,所以熄屏之后就不会再点亮屏幕 ...
QT qml---- loader使用方法
"简洁是智慧的灵魂,冗长是肤浅的藻饰"------------------<哈姆莱特>莎士比亚 Import Statement: import QtQuick 2.5 ...
go零碎总结
1.go里通过首字母大小写来区分它是私有的还是公有的,比如对于一个结构体属性一般就以大写开头(和Java不一样,不需要什么getter,setter方法):而对于方法而言,它是隶属于包(包名一定是小写 ...
[转帖]Nginx rewrite 规则与 proxy_pass 实现
Nginx rewrite 规则与 proxy_pass 实现 https://www.cnblogs.com/jicki/p/5546916.html Nginx rewrite 规则与 pr ...
NGINX---一次阿里云宝塔开发flask经历
1.放行端口问题不但需要在阿里云官网服务器控制台放行端口,还需要在宝塔里面放行端口 2.nginx 宝塔默认的用户是www 句法: user user [group]; 默认: 用户无人; 语境: ...
MATLAB：一个K×M的矩阵，第一列是1，其它都是0，从最后一行开始，每循环一次，最后一行的1往右边移一位，移动到末尾后溢出，重新回到最左边，同时上一行的1往右边移一位
问题:一个K×M的矩阵,第一列是1,其它都是0,从最后一行开始,每循环一次,最后一行的1往右边移一位,移动到末尾后溢出,重新回到最左边,同时上一行的1往右边移一位.上一行溢出时,上上一行的1移动一位, ...

某阅读多word整理自动化脚本