Python实现批量处理文件的缩进和转码问题

最近把很久前的C代码传到Github上的时候，发现全部上百个源文件的代码缩进都变成了8格，而且里面的中文都出现了乱码，所以决定写个程序来批量处理所有文件的格式。这段关于转码的代码可以适用于很多场合，比如Window下默认编码是GBK，而Linux下默认编码是UTF-8，如果两者间传输的文件中出现中文，则需要进行转码。

问题分析

缩进问题是因为在之前使用vc时没有将制符表设置为4个空格，而Github上的Tab键默认显示八格。中文乱码问题是由于vc++使用的是GBK编码。
解决思路

1.缩进问题，也就是用空格替换Tab，通过Python程序读取每一行C代码，计算出对应的空格个数，添加到去除首尾空格的源字符串前构成新的一行，然后写入新的文件。

2.乱码问题，根据Python特性，读取一行字符串后，将在内部自动解码（decode）为Unicode形式，只需要在写入时以utf-8进行编码（encode）并输出就可以实现编码的转换。注意Python输入输出的默认编码为cp936（gbk），要在打开文件时指定写入文件的编码格式。

3.程序只需接收原始文件夹的路径，通过递归遍历将目录中所有C文件处理后输出到新的文件夹，新文件夹与源文件夹所在目录相同，且包结构完全相同。

import os, codecs

#计算该行应有的缩进空格（考虑Tab和空格混用的情况）

def count_space(st):

    count = 0

    if st == '\n':

        return 0

    for ch in st:

        if ch == '\t':

            count = count + 4

        elif ch == ' ':

            count = count + 1

        else:

            break

    return count    

#处理文件：1.将tab转换成相应个数的空格 2.转化为utf-8编码

def process_file(src_path, dest_path):

    #设置写入的编码方式为utf-8

    #或使用open(dest_path, 'w', encoding = 'utf8')

    with open(src_path, 'r') as fr, codecs.open(dest_path, 'w', 'utf-8') as fw:

        for line in fr.readlines():

            clean_line = line.strip()

            n_space = count_space(line)

            i = 0

            sp = ''

            while i < n_space:

                sp = sp + ' '

                i = i + 1

            line = sp + clean_line + '\n'

            fw.write(line)

#递归遍历整个目录

def travel(src_path, dest_path, item):

    if not os.path.isdir(src_path):

        if os.path.splitext(src_path)[1] == item:

            process_file(src_path, dest_path)           #直到遇到相应文件，就进行处理

        return

    if not os.path.isdir(dest_path):                    #创建对应的目标目录

        os.mkdir(dest_path)

    #层层深入

    for filename in os.listdir(src_path):

        travel(os.path.join(src_path, filename), os.path.join(dest_path, filename), item)

if __name__ == '__main__':

    src_root = 'C:\\Users\\Administrator\\Desktop\\C-Primer-Plus'           #接收要处理的文件夹（这里直接指定）

    dest_root = src_root + '-new'

    item = '.c'

    travel(src_root, dest_root, item)

Python实现批量处理文件的缩进和转码问题的更多相关文章

利用 Python 进行批量更改文件后缀
利用 Python 进行批量更改文件后缀代码 import os files = os.listdir('.') for file_name in files: portion = os.path. ...
Python之批量读取文件【面试必学】
python的os模块可以实现普遍的操作系统功能,并且和平台无关.以下为实现根目录下文件的批量读取. os.listdir(dirname)可以列出dirname下的目录和文件,依次读取相应的文件即可 ...
python脚本批量复制文件
1.拷贝一个目录下的所有文件及文件夹到另一个目录下(递归拷贝) # cat /home/test.py #!/usr/bin/python import os import shutil def ...
python 之批量替换文件中文本后缀
代码示例如下: #!/usr/local/bin python import os def swapextensions(dir, before, after): if before[:1] != ' ...
python 多线程批量传文件
#!/usr/bin/env python #_*_ coding:utf-8 -*-#autho:leiyong#time:2017-06-05#version: 1.3 import parami ...
python实现批量压缩文件夹
前段时间碰到一个需要把目录下文件夹压缩的项目,但是度娘里没找到,只好自己写脚本了. #coding:utf-8 import os filePath = raw_input("请输入路径:& ...
ubuntu批量更改文件权限
重装系统之后,把文件从windows分区拷到linux分区发现所有文件的权限全是777,在终端下看到所有文件的颜色都很刺眼,文件有很多,一个一个改不现实,所以写了一段python脚本批量更改文件权限. ...
python批量进行文件修改操作
python批量修改文件扩展名在网上下载了一些文件,因为某种原因,扩展名多了一个后缀'.xxx',手动修改的话因为文件太多,改起来费时费力,于是决定写个小脚本进行修改. 1.要点: import r ...
Python 实现批量从不同的Linux服务器下载文件
基于Python实现批量从不同的Linux服务器下载文件 by:授客 QQ:1033553122 实现功能 1 测试环境 1 使用方法 1 1. 编辑配置文件conf/file_for_downl ...

随机推荐

编写管理IP地址参数脚本（永久性）
1.用各种命令取出/etc/passwd文件前5行的最后一个字母.(2种) 2.编写管理IP地址参数脚本(永久性) a.只能用sed命令完成 b.提示用户变量赋值(IP.子网掩码.网关.DNS等) c ...
Linux系统管理第四次作业磁盘管理文件系统
1.为主机新增两块30GB的SCSI硬盘 2.划分3个主分区,各5GB,剩余空间作为扩展分区 [root@localhost ~]# fdisk /dev/sdb 欢迎使用 fdisk (util-l ...
vue2.x学习笔记（二十九）
接着前面的内容:https://www.cnblogs.com/yanggb/p/12682822.html. 路由官方路由对于大多数的单页面应用,都推荐使用官方支持的vue-router库. 从 ...
【集群实战】Rsync试题-异机数据备份解决方案
企业案例:Rsync上机实战考试题: 某公司有一台Web服务器,里面的数据很重要,但是如果硬盘坏了,数据就会丢失,现在领导要求你把数据在其它机器上做一个周期性定时备份. 要求如下: 每天晚上00点整在 ...
在线图片资源转换成Base64格式
function getBase64Image(img) { var canvas = document.createElement("canvas"); canvas.width ...
bibernate中inverse和cascade用法
一口一口吃掉Hibernate(八)--Hibernate中inverse的用法 [转自 http://blog.csdn.net/xiaoxian8023 ] 一.Inverse是hibernate ...
Netty（六）:NioServerSocketChannel源码解析
我们在Netty学习系列五的最后提出了一些问题还没得到回答,今天来通过学习NioServerSocketChannel的源码来帮我们找到之前问题的答案. 先看一下NioServerSocketChan ...
three.js中的矩阵变换(模型视图投影变换)
目录 1. 概述 2. 基本变换 2.1. 矩阵运算 2.2. 模型变换矩阵 2.2.1. 平移矩阵 2.2.2. 旋转矩阵 2.2.2.1. 绕X轴旋转矩阵 2.2.2.2. 绕Y轴旋转矩阵 2.2 ...
前端——localStorage详细总结
一.localStorage简介: 在HTML5中,新加入了一个localStorage特性,这个特性主要是用来作为本地存储来使用的,解决了cookie存储空间不足的问题(cookie中每条cooki ...
不需要爬虫也能轻松获取 unsplash 上的图片
我经常会使用 unsplash, 这里面的图片非常清爽,我的大多数文章的图片都是在这个网上找的,虽然也有同类型网站,但是用过一段时间以后基本都放弃了,图片质量参差不齐,筛选过程太费劲. 但是 unsp ...

Python实现批量处理文件的缩进和转码问题

Python实现批量处理文件的缩进和转码问题的更多相关文章

随机推荐

热门专题