python读取doc

import os, time, fnmatch

from docx import Document

class search:

  def __init__(self, path, search_string, file_filter):

    self.search_path = path

    self.search_string = search_string

    self.file_filter = file_filter

    print ("Search %s in %s..." % (

      self.search_string, self.search_path

    ) )

    print ("_" * 80)

    time_begin = time.time()

    file_count = self.walk()

    print ("_" * 80)

    print ("%s files searched in %0.2fsec." % (

      file_count, (time.time() - time_begin)

    ))

#遍历所有的文件，记录文件数量

  def walk(self):

    file_count = 0

    for root, dirlist, filelist in os.walk(self.search_path, followlinks=True):

      for filename in filelist:

        for file_filter in self.file_filter:

          if fnmatch.fnmatch(filename, file_filter):

            self.search_file(os.path.join(root, filename))

            file_count += 1

    return file_count

#遍历文件中的字符串，并且剪切显示出来

  def search_file(self, filepath):

    d = Document(filepath)

    for para in d.paragraphs:

      if self.search_string in d.paragraphs:

        print(filepath)

        self.cutout_content(content)

#剪切字符串并且显示

  def cutout_content(self, content):

    current_pos = 0

    search_string_len = len(self.search_string)

    for i in xrange(max_cutouts):

      try:

              #从current_pos位置往后寻找self.search_string个字符串

        pos = content.index(self.search_string, current_pos)

      except ValueError:

        break

#将显示窗口定义为寻找到的关键字向前向后各content_extract个字符

      content_window = content[ pos - content_extract : pos + content_extract ]

      print (">>>", content_window.encode("String_Escape"))

      current_pos += pos + search_string_len

    print

#主程序入口

if __name__ == "__main__":

  search_path = r"c:\Users\Administrator\Desktop"

  file_filter = ("*.docx",".doc") # fnmatch-Filter

  search_string = "history"

  content_extract = 35 #获取摘要35

  max_cutouts = 20 #显示窗口20

  search(search_path, search_string, file_filter)

python读取doc的更多相关文章

Python：读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误
概述 Python 中可以读取 word 文件的库有 python-docx 和 pywin32. 下表比较了各自的优缺点. 优点缺点 python-docx 跨平台只能处理 .docx 格式 ...
【转】Python——读取html的table内容
Python——python读取html实战,作业7(python programming) 查看源码,观察html结构 # -*- coding: utf-8 -*- from lxml.html ...
孤荷凌寒自学python第五十二天初次尝试使用python读取Firebase数据库中记录
孤荷凌寒自学python第五十二天初次尝试使用python读取Firebase数据库中记录 (完整学习过程屏幕记录视频地址在文末) 今天继续研究Firebase数据库,利用google免费提供的这个数 ...
python读取excel一例-------从工资表逐行提取信息
在工作中经常要用到python操作excel,比如笔者公司中一个人事MM在发工资单的时候,需要从几百行的excel表中逐条的粘出信息,然后逐个的发送到员工的邮箱中.人事MM对此事不胜其烦,终于在某天请 ...
python读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...
python读取mnist
python读取mnist 其实就是python怎么读取binnary file mnist的结构如下,选取train-images TRAINING SET IMAGE FILE (train-im ...
[转] Windows下使用Python读取Excel表格数据
http://www.python-excel.org/这个网站罗列了很多关于在Python下操作Excel文件的信息,这里选择了其介绍的第一个模块xlrd . xlrd 0.9.2版本跨平台同时支持 ...
Python读取txt文件
Python读取txt文件,有两种方式: (1)逐行读取 data=open("data.txt") line=data.readline() while line: print ...
Python读取Yaml文件
近期看到好多使用Yaml文件做为配置文件或者数据文件的工程,随即也研究了下,发现Yaml有几个优点:可读性好.和脚本语言的交互性好(确实非常好).使用实现语言的数据类型.有一个一致的数据模型.易于实现 ...

随机推荐

对 vscode 自动格式化的结果不太满意，我们该如何自己调整直至自己满意为止
前提概述采用vue-cli 3.0自动生成vue项目,选了ESlint+Prettier,在写request.js的时候,顺手用vscode右击格式化文件(Alt+Shift+F),一下子报了8个问 ...
PAT——乙级1006：换个格式输出整数&乙级1021：个位数统计&乙级1031：查验身份证
1006 换个格式输出整数 (15 point(s)) 让我们用字母 B 来表示“百”.字母 S 表示“十”,用 12...n 来表示不为零的个位数字 n(<10),换个格式来输出任一个不超过 ...
Android之内容提供者ContentProvider的总结
本文包含以下知识点: ContentProvider Uri 的介绍 ContentResolver: 监听ContentProvider的数据改变一:ContentProvider部分 Conte ...
day02 智能合约
上午 1>部署智能合约网络语法 require 2>利用第三方的节点同步到以太坊 3>智能合约部署的步骤: 1.查看区块 2.发布合约 deploy后台经历的事情:就是部署合约的 ...
总结const
int b; const int *a=&b; int const * a=&b; int * const a =&b; const int *const a=&b; ...
lintcode-108-分割回文串 II
108-分割回文串 II 给定一个字符串s,将s分割成一些子串,使每个子串都是回文. 返回s符合要求的的最少分割次数. 样例比如,给出字符串s = "aab", 返回 1, 因为 ...
Kafka数据辅助和Failover
数据辅助与Failover CAP理论(它具有一致性.可用性.分区容忍性) CAP理论:分布式系统中,一致性.可用性.分区容忍性最多只可同时满足两个.一般分区容忍性都要求有保障,因此很多时候在可用性与 ...
搭建ELK 6
ELK 6.2.4搭建 https://www.cnblogs.com/harvey2017/p/8922164.html 开源实时日志分析ELK平台能够完美的解决我们上述的问题,ELK由Elasti ...
BZOJ4327 JSOI2012玄武密码（AC自动机）
当然可以在SA上二分答案,但看起来会被卡log.考虑对模板串建出AC自动机,用母串在上面跑,标记上所有能到达的点.注意到达某个点时需要标记所有其通过fail指针可以走到的点,如果遇到一个标记过的点就可 ...
POJ2406 Power Strings 【KMP 或后缀数组】
电源串时间限制: 3000MS 内存限制: 65536K 提交总数: 53037 接受: 22108 描述给定两个字符串a和b,我们定义a * b是它们的连接.例如,如果a =" ...

python读取doc

python读取doc的更多相关文章

随机推荐

热门专题