吴裕雄--天生自然python学习笔记:python 文件批量查找
在多个文本文件中查找
我们首先来学习文本文件的查找字符 。 我们通过 os.walk 扩大查找范围,
查找指定目录和子目录下的文件。
应用程序总览
读取 当 前目录及子目录下的所有 PY 和 txt 文本文件,搜索这些文件中是否包含
指定的字符“ shutil ”。

应用程序内容
import os cur_path=os.path.dirname(__file__) # 取得当前路径
sample_tree=os.walk(cur_path)
keyword="shutil" for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有 .py .txt 文件,存入 allfiles 列表中
ext=file.split('.')[-1]
if ext=="py" or ext=="txt":
allfiles.append(dirname +'/'+file) if len(allfiles)>0:
for file in allfiles: # 读取 allfiles 列表所有文件
try:
fp = open(file, "r", encoding = 'UTF-8')
article = fp.readlines()
fp.close
line=0
for row in article:
line+=1
if keyword in row:
print("在 {},第 {} 行找到{}。".format(file,line,keyword))
except:
print("{} 无法读取..." .format(file)) print("完成...")
在 Word 文件中查找指定字符
接着我们来学习在 Word 文件中查找指定 的 字符。 对以 docx 为后缀 的 文件进行
搜索 , 需要先安装 python-docx 包 :
安装完毕后导入 do cx 包 , 再用 docx.Document() 方法创建 docx 对象来读取指
定的 do c x 文件,每个 doc x 文件包含多个 paragraphs 段落 , 可通过 text 属性来读取
paragraph s 段落的内容 。
例如 : 读取“简介 .do cx ”文件并显示所有段落内容。
import docx
doc = docx.Document("简介.docx")
for p in doc.paragraphs:
print(p.text)
应用程序总览
读取当前目录及子目录下所有 docx 格式的 Word 文件,井在这些文件中查找是否
包含 “ 篮球 ” 字符。

import os,docx cur_path=os.path.dirname(__file__) # 取得当前路径
sample_tree=os.walk(cur_path) keyword="篮球"
print("查找字符串:{}" .format(keyword)) for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有.docx文件并存入 allfiles 列表中
ext=file.split('.')[-1]
if ext=="docx": # get *.docx to allfiles
allfiles.append(dirname +'/'+file) for file in allfiles:
print("正在查找{}文件...".format(file))
try:
doc = docx.Document(file)
line=0
for p in doc.paragraphs:
line+=1
if keyword in p.text:
print("...在第 {} 段文字中找到{}\n {}。".format(line,keyword,p.text))
except:
print("无法读取 {} 文件..." .format(file)) print("\n查找完毕...")
另 一种比较好的查找方式是在 Anaconda Prompt 窗口中 , 通过 python FindK.ey
Word3.py 命令行来执行查找字符的程序 。
例如:查找“ shutil ”字符 。

例如:查找“篮球”字符 。

注意 : Python 应用程序 FindK.eyWord3.py 的路 径中不能包含中文路径,即 D: \pythonex\ chl2 , 然后再在
Anaconda Prompt 窗口中进行执行 。 如下图:

import os,docx,sys if len(sys.argv) == 1:
keyword="shutil"
print("语法:python FindKeyWord3.py 查找字符串\n")
else:
keyword=sys.argv[1] #cur_path=os.path.dirname(__file__) # 取得当前路径
cur_path=os.getcwd()
sample_tree=os.walk(cur_path)
print(cur_path) for dirname,subdir,files in sample_tree:
allfiles=[]
for file in files: # 取得所有 .py .txt .docx文件,存入allfiles列表中
ext=file.split('.')[-1]
if ext=="py" or ext=="txt" or ext=="docx":
allfiles.append(dirname +'/'+file) if len(allfiles)>0:
for file in allfiles: # 读取 allfiles 列表所有文件
try:
if file.split('.')[-1]=="docx": # .docx
doc = docx.Document(file)
line=0
for p in doc.paragraphs:
line+=1
if keyword in p.text:
print("...在第 {} 段文字中找到{}\n {}。".format(line,keyword,p.text))
else: # .py or .txt
fp = open(file, "r", encoding = 'UTF-8')
article = fp.readlines()
fp.close
line=0
for row in article:
line+=1
if keyword in row:
print("在 {},第 {} 行找到 {} 。".format(file,line,keyword))
except:
print("{} 无法读取..." .format(file)) print("完成...")
吴裕雄--天生自然python学习笔记:python 文件批量查找的更多相关文章
- 吴裕雄--天生自然HADOOP学习笔记:hadoop集群实现PageRank算法实验报告
实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班 ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL UPDATE 更新
如果需要修改或更新 MySQL 中的数据,我们可以使用 SQL UPDATE 命令来操作. 语法 以下是 UPDATE 命令修改 MySQL 数据表数据的通用 SQL 语法: UPDATE table ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL 插入数据
MySQL 表中使用 INSERT INTO SQL语句来插入数据. 可以通过 mysql> 命令提示窗口中向数据表中插入数据,或者通过PHP脚本来插入数据. 以下为向MySQL数据表插入数据通 ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL简介
MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用 ...
- 吴裕雄--天生自然 oracle学习笔记:oracle理论学习详解及各种简单操作例子
1. 数据库的发展过程 层次模型 -->网状模型 -->关系模型 -->对象关系模型 2. 关于数据库的概念 DB:数据库(存储信息的仓库) DBMS:数据库管理系统(用于管理数据库 ...
- 吴裕雄--天生自然HADOOP学习笔记:基本环境配置
实验目的 学习安装Java 学习配置环境变量 学习设置免密码登陆的方法 掌握Linux环境下时间同步的配置 实验原理 1.Java的安装 java是大数据的黄金语言,这和java跨平台的特性是密不可分 ...
- 吴裕雄--天生自然HADOOP学习笔记:使用yum安装更新软件
实验目的 了解yum的原理及配置 学习软件的更新与安装 学习源代码编译安装 实验原理 1.编译安装 前面我们讲到了安装软件的方式,因为linux是开放源码的,我们可以直接获得源码,自己编译安装.例如: ...
- 吴裕雄--天生自然HADOOP学习笔记:Shell工具使用
实验目的 学习使用xshell工具连接Linux服务器 在连上的服务器中进入用户目录 熟悉简单的文件操作命令 实验原理 熟悉shell命令是熟悉使用linux环境进行开发的第一步,我们在linux的交 ...
- 吴裕雄--天生自然HTML学习笔记:HTML 布局
网页布局对改善网站的外观非常重要. 请慎重设计您的网页布局. <!DOCTYPE html> <html> <head> <meta charset=&qu ...
- 吴裕雄--天生自然MySQL学习笔记:MySQL 安装
所有平台的 MySQL 下载地址为: MySQL 下载:https://dev.mysql.com/downloads/mysql/ 注意:安装过程我们需要通过开启管理员权限来安装,否则会由于权限不足 ...
随机推荐
- 201771010123汪慧和《面向对象程序设计Java》第十五周实验总结
一.理论部分 1.JAR文件 (1)Java程序的打包:程序编译完成后,程序员将.class文件压缩打包为.jar文件后,GUI界面 程序就可以直接双击图标运行. (2).jar文件(Java归档)既 ...
- missing KW_END at ')' near '<EOF>'
case when 没写 end
- Java web项目所需技术*(大概)
实施java 的web项目需要掌握的技术如下: 1.java语言 2. 面向对象分析设计 XML 语言 网页脚本语言 数据库 应用服务器 集成开发环境 .java语言:JSP.Servlet.JDB ...
- 19 01 12 javascript 定时器 封闭函数
定时器 定时器在javascript中的作用1.制作动画2.异步操作3.函数缓冲与节流 定时器: setTimeout 只执行一次的定时器 clearTimeout 关闭只执行一次的定时器 setIn ...
- luogu P4219 [BJOI2014]大融合
题解:原来LCT也能维护子树信息,我太Naive了 用LCT维护当前子树节点个数 具体做法维护siz[x]=当前Splay子树和指向当前Splay子树的虚边所代表的节点个数 auxsiz[x]=指向x ...
- linux centos 7 防火墙相关
centos 7 系统 默认是开启防火墙,而且没有打开80和8080等端口. 因此,今天配置tomcat和nginx后,分别无法正常访问 访问80和8080端口都报:502错误.(错误的网关)查询资料 ...
- 自己简单配置webpack
第一步 // 1.在新建文件夹中,npm init -y,生成package.json文件 // package.json 文件内容 { "name": "02webpa ...
- POJ-1733 Parity game(带权并查集区间合并)
http://poj.org/problem?id=1733 题目描述 你和你的朋友玩一个游戏.你的朋友写下来一连串的0或者1.你选择一个连续的子序列然后问他,这个子序列包含1的个数是奇数还是偶数.你 ...
- linux环境java程序cpu爆表问题查证
1.top命令查找导致cup爆表的进程 2. top -H -p10832 (10832是Java进程的PID)命令找出了具体的线程 3.使用用命令 jstack 10832> jstack.t ...
- 复杂分布式架构下的计算治理之路:计算中间件 Linkis
前言 在当前的复杂分布式架构环境下,服务治理已经大行其道.但目光往下一层,从上层 APP.Service,到底层计算引擎这一层面,却还是各个引擎各自为政,Client-Server 模式紧耦合满天飞的 ...