Python 批处理文本文件、进行查找

去年换了一部手机，老手机终于光荣退休了，但是里面的便签里还存有很多文字记录，这个手机还不能备份到云，只能将每个便签保留为一个个的文本文件，我想要把所有的文本文件归到一个文本文件中，手动操作太麻烦了，刚好去年学了python，我不由自主的就想到能做一个小程序来帮我完成这个任务

包含：文件编码、批量处理文件、open()

任务描述：打开文件夹中所有的.txt文件，读取每个文件的内容，并将内容写入到我指定的文本文件中

我觉得相比上一个任务，这个应该简单很多，循环打开，读取，写入，所以这次没树头发就开始做了，万万没想到，程咬金第一步就杀出来了，我发现以自己的水平写不出来打开文件夹下每个文本文件的函数，果然我头发多是有原因的

首先我想到用目录名称+模糊名的方法，果然不出我所料，没鸟用。马上百度

searchObjFile=open('*.txt')

print(searchObjFile)

　　找到了 listdir(path) 会返回path下所有文件名的一个列表，但我还不满足，我不想再用正则表达式再去从里面把.txt的文件挑出来，我又一次开始了检索，我在知识的大海里游啊游，终于找到了 os.path.splitext(path) 这个函数会分割路径，返回路径名和文件扩展名的元组

　　哈哈结果

#! python3

# chapter08-test03.py - 打开文件夹中所有的.txt文件

#   结果打印在屏幕上

import os,re

import chardet

#****不能解决访问文件夹中嵌套的文件夹中的文本

#定义获取文件编码的函数

def get_encoding(file):

    with open(file,'rb') as f:

        return chardet.detect(f.read())['encoding']

path=os.path.join('F:\便签')

#不能保存在当前文件夹下，否则重复执行时会造成二次写

toSavePath=r'F:\allNoteText'

#判断要保存在的文件夹是否存在，然后再创建

if not os.path.exists(os.path.join(toSavePath)):

    os.makedirs(os.path.join(toSavePath))

    #打开名为*的文本文件，准备保留

allNoteText=open(os.path.join(toSavePath,'allNoteText.txt'),'w+')#这里参数应该是w

fileNameList=os.listdir(path)

for objFile in fileNameList:

    fileType=os.path.splitext(os.path.join(path,objFile))

    #splitext()会返回路径名和扩展名的元组

    if fileType[1]=='.txt':

        correctFileName=os.path.join(path,objFile)

        encoding=get_encodin

        encoding=get_encoding(correctFileName)

        searchObjFile=open(correctFileName,encoding=encoding,errors='ignore') #创建一个文件对象

        allNoteText.write(searchObjFile.read())

        searchObjFile.close()

allNoteText.close()

#不知道为什么上边调用allNoteText.read()打印为空只好重新这样

allNoteText=open(os.path.join(toSavePath,'allNoteText.txt'),'r')

print(allNoteText.read())

allNoteText.close()

遇到的问题：

1)无效的语法

for objFile in fileNameList:

    fileType=os.path.splitext(os.path.join(path,objFile)

    #splitext()会返回路径名和扩展名的元组

    if fileType[1]=='.txt':　　#提示这里的冒号无效的语法，删去这个if分支提示下面的‘print’无效语法最后发现上面行少加了一个右括号

                              correctFileName=os.path.join(path,objFile)

                              searchObjFile=open(correctFileName)

                              print(searchObjFile.read())

                              searchObjFile.close()

print(fileNameList)

2）经过 os.join() 处理过的代码仍有可能出现问题，要谨慎对待，比如我就十分相信内置函数，但没想到也没想明白会出现这样的问题

>>> path=os.path.join('D:\Desktop\便签\notes_20170525152818.txt')

>>> readObjFile=open(path)

Traceback (most recent call last):

  File "<pyshell#75>", line 1, in <module>

    readObjFile=open(path)

OSError: [Errno 22] Invalid argument: 'D:\\Desktop\\便签\notes_20170525152818.txt'

解决办法：

百度 OSError: [Errno 22] Invalid argument 发现解决办法没有，后来发现了是 os.join() 函数的问题

3） UnicodeDecodeError 错误

>>> readObjFile.read()

Traceback (most recent call last):

  File "<pyshell#83>", line 1, in <module>

    readObjFile.read()

UnicodeDecodeError: 'gbk' codec can't decode byte 0x88 in position 38: illegal multibyte sequence

解决办法：

　　百度结果

0x92 即 10010010，UTF8 中编码一个字符的第一个字节（start byte）只可能是 0xxxxxxx、110xxxxx、1110xxx、11110xxx……而后面的字节只可能是 10xxxxxx。也就是说 0x92 只能作为后面的字节，却出现在了第一个字节的位置。

出现这种问题绝大部分情况是因为文件不是 UTF8 编码的（例如，可能是 GBK 编码的），而系统默认采用 UTF8 解码。解决方法是改为对应的解码方式。

极少数情况是因为文件损坏了或者和一部分非 UTF8 编码混在一起，可以修复文件或采用 replace 等方式解码。

Python 2 没有问题是因为 Python 2 默认以字节流（对应 Python 3 的 bytes）的方式读文件，不像 Python 3 默认解码为 unicode，把读文件的方式改为 rb 有同样的效果，不过 Python 3 中处理 bytes 还可能遇到很多问题就是了……

open('filename', encoding='gbk', mode='r').read()

　　结果还是无效

获得经验：

1）提示无效句法应在光标定位的前后寻找

2）系统函数的结果也可能出错

Python 批处理文本文件、进行查找的更多相关文章

Python实现对文件夹内文本文件递归查找
平台:Win7 64 bit,IDLE Python 3.4.0 经常有这样的需求:在一个文本文件里查找特定字符串,这很好实现,用任何文本查看工具几乎都可以做到.而有的时候,想查找一个文件夹下的所有文 ...
python glob 用通配符查找指定目录中的文件 - 开源中国社区
python glob 用通配符查找指定目录中的文件 - 开源中国社区 python glob 用通配符查找指定目录中的文件
Python中文本文件读写操作的编码问题
Python中文本文件读写的编码问题编码(encode): 我们输入的任何字符想要以文件(如.txt)的形式保存在计算机的硬盘上, 必须先经按照一定的规则编成计算机认识的二进制后,才能存在电脑硬盘上 ...
Python引用模块和查找模块路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于"模块"这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译 ...
python 读写文本文件
本人最近新学python ,用到文本文件的读取,经过一番研究,从网上查找资料,经过测试,总结了一下读取文本文件的方法. 1.在读取文本文件的时无非有两种方法: a.f=open('filename', ...
Python入门之Python引用模块和查找模块路径
#这篇文章主要介绍了Python引用模块和Python查找模块路径的相关资料,需要的朋友可以参考下模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的, ...
python读取文本文件
1. 读取文本文件代码: f = open('test.txt', 'r') print f.read() f.seek(0) print f.read(14) f.seek(0) print f. ...
Python函数作用域的查找顺序
函数作用域的LEGB顺序 1.什么是LEGB? L:local 函数内部作用域 E:enclosing 函数内部与内嵌函数之间 G:global 全局作用域 B:build-in 内置作用域 2.它们 ...
python 字典有序无序及查找效率，hash表
刚学python的时候认为字典是无序,通过多次插入,如di = {}, 多次di['testkey']='testvalue' 这样测试来证明无序的.后来接触到了字典查找效率这个东西,查了一下,原来字 ...

随机推荐

C# WindowsAPI
Windows是一个强大的操作系统,也会向开发者提供海量的系统API来帮助开发者来完成Windows系统软件的开发工作. 整理的部分Windows API,C#可以直接调用. 1.获取.exe应用程序 ...
C#的常见算法（面试）（转）
一.求以下表达式的值,写出您想到的一种或几种实现方法: 1-2+3-4+……+m //方法一,通过顺序规律写程序,同时也知道flag标志位的重要性. static int F1(int m) { ; ...
（转载）Android自定义ProgressDialog进度等待框
Android自定义ProgressDialog进度等待框作者:无缘公子字体:[增加减小] 类型:转载时间:2016-01-11我要评论这篇文章主要介绍了Android自定义Progress ...
【参考】Linux下的Memcache安装
服务器端主要是安装memcache服务器端.下载:http://www.danga.com/memcached/dist/memcached-1.2.2.tar.gz另外,Memcache用到了lib ...
CF 287(div 2) B Amr and Pins
解题思路:一开始自己想的是找出每一次旋转所得到的圆心轨迹,将想要旋转到的点代入该圆心轨迹的方程,如果相等,则跳出循环,如果不相等,则接着进行下一次旋转.后来看了题解,发现,它的旋转可以是任意角度的,所 ...
gcd的queue与group
queue相当于事件处理机制里的事件池:只是任务池: 线程作为事件处理的实施者,由线程池从任务池中获取任务进行调度派发: group相当与工作组,按照任务的相关性对任务进行组织.
[agc004c]and grid
别问我为什么咕了两天题意: 给出一个$H\times W$的网格图A,仅由'.'和'#'构成,边界上没有'#'且至少有一个'#'.构造两个网格图B和C,大小均为$H\times W$,要求A中为'# ...
shell的通俗理解
(引自:https://zhidao.baidu.com/question/557066905.html) [一] shell的含义: 首先shell的英文含义是“壳”: 它是相对于内核来说的,因为它 ...
Java 学习（11）：面向对象编程—继承（super，this）
Java 继承 what: 继承就是子类继承父类的特征和行为,使得子类对象(实例)具有父类的实例域和方法,或子类从父类继承方法,使得子类具有父类相同的行为.子类从它的父类中继承可访问的数据域和方法,也 ...
Oracle 切割字符查询
Oracle 切割字符查询 select * from view_psbaseinfo where DECODE('410782001125,411100000043', '', NULL, '410 ...

Python 批处理文本文件、进行查找

Python 批处理文本文件、进行查找的更多相关文章

随机推荐

热门专题