使用Python提取中文字符

#功能：国际化测试，用于提取应用设计包中的中文字符，并输出report
#解压---筛选---整理路径---提取中文---输出报告

#################################################################

#author: 陈月白

#_blogs: http://www.cnblogs.com/chenyuebai/

#################################################################

#功能：国际化测试，用于提取应用设计包中中文字符，并输出report

#yuebai 20160328

#解压---筛选---整理路径---提取中文---输出报告

#-*- coding: utf-8 -*-

import os

import shutil

import sys

import re

import zipfile

import glob

workPath = "C:\\users\\yuebai\\Desktop\\国际化测试包"

reportPath = "C:\\users\\yuebai\\Desktop\\国际化输出报告"

#定义日志函数

def logInfo(info):

    log = open("%s\\run.log"%workPath,"a")

    log.write("[Info] %s\n"%info)

    log.close()

#定义解压文件函数

def extractZip(fileName,extraPath):

    f = zipfile.ZipFile(fileName,"r")

    f.extractall(extraPath)

    f.close()

    logInfo("%s文件解压完成"%fileName)    

#功能函数，找出中文字符

def getChinese(fileFullPath):

    isChinese = re.compile("([\u4e00-\u9fa5]+)+?")

    f = open(fileFullPath,"r",encoding="UTF-8")     #打开待提取文件

    f_in = open("%s\\chineseTxt.txt"%reportPath,"a")    #打开输出文件

    for line in f.readlines():

        getStr = isChinese.findall(str(line))   #逐行判断提取中文

        if not getStr == []:

            f_in.write("发现中文字符(╯' - ')╯︵ ┻━┻ ，文件路径为%s\n"%fileFullPath)

            f_in.write("%s\n"%line)

            f.close()

            f_in.close()

    logInfo("查找完成，输出报告路径：%s"%reportPath)

#功能函数，列出路径下所有文件

def listAny(workPath):

    if not os.path.exists(workPath):

        print("Error,no such dictionary%s,plz check"%workPath)

    zipList = os.listdir(workPath)

    return zipList

#删除非zip类型的包

notZipList = glob.glob("%s\\*[!p]"%workPath)

logInfo("notZipList =%s,prepare to delete"%notZipList)

for i in notZipList:

    os.remove(i)

logInfo("删除非zip包完成")

#获取zip包列表

zipList = listAny(workPath)

#取zip包解压

#print("开始提取")

for zipPackage in zipList:

    zipName = os.path.split(zipPackage)[0]      #切割获取文件名

    extraPath = os.path.join(workPath,zipName)      #在当前文件夹下创建和zip包同名文件夹，用以做解压目标路径

    os.makedirs(extraPath)

    logInfo("构造解压路径完成，extraPath =%s"%extraPath)

    extraFilePath = os.path.join(workPath,zipPackage)   #待解压文件绝对路径

    #开始解压zip包，完成后删除源zip文件

    extractZip(extraFilePath, extraPath)

    os.remove(extraFilePath)

    #将扩展目录下流程文件汇总至\\plan下

    if os.path.exists("%s\\Plans\\Extend"%extraPath):

        tmpExtendPath = ("%s\\Plans\\Extend"%extraPath)

        tmpPlanPath = ("%s\\Plans"%extraPath)

        for t in os.listdir(tmpExtendPath):

            t_FullPath = ("%s\\%s\\"%(tmpExtendPath,t))

            #print("t_FullPath =",t_FullPath)

            if os.path.isfile(t_FullPath):

                shutil.move(t_FullPath,tmpPlanPath)

    #调用getChinese，提取中文字符

    for y in os.listdir(tmpPlanPath):

        y_fullPath = os.path.join(tmpPlanPath,y)

        #print(y_fullPath)

        logInfo("开始检查文件%s，检查结果路径：%s"%(y_fullPath,reportPath))

        getChinese(y_fullPath)

#剔除注释

f_in = open("%s\\chineseTxt.txt"%reportPath,"r")    #全部中文文件

f_comment = open("%s\\comment.txt"%reportPath,"a")    #打开待写入注释文件

f_result = open("%s\\result.txt"%reportPath,"a")    #结果文件

for line in f_in.readlines():

    if re.findall("^//.*",line):

        f_comment.write("%s\n"%line)

    else:

        f_result.write("%s\n"%line)

f_in.close()

f_comment.close()

f_result.close()

print("提取完成，结果路径：%s"%reportPath)

使用Python提取中文字符的更多相关文章

python处理中文字符
1.在py文件中使用中文字符 unicode.py文件内容如下所示: # -*- coding:utf-8 -*- str_ch = '我们women' uni_ch = u'我们women' pri ...
[python]有中文字符程序异常的解决方案
一. 含有中文字符无法运行在python3中用的是Unicode编码,Unicode号称万国码,可以向所有的编码进行兼容.不会出现这种问题. Python2中使用的是ASCII编码,会出现这种问题. ...
python 匹配中文字符
参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn. ...
python实现中文字符繁体和简体中文转换-乾颐堂
需求:把中文字符串进行繁体和简体中文的转换: 思路:引入简繁体处理库,有兴趣的同学可以研究一下内部实现,都是python写的 1.下载zh_wiki.py及langconv zh_wiki.py:ht ...
Python解决中文字符的问题
from __future__ import unicode_literals print(type("test")) #<type 'unicode'> Chinat ...
python 连接数据库-设置oracle ，mysql 中文字符问题
import cx_Oracle import MySQLdb def conn_oracle(): cnn = cx_Oracle.connect('用户名','密码','ip:端口号/数据库') ...
python中文字符乱码（GB2312，GBK，GB18030相关的问题）
转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬 ...
Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
中文字符 unicode转utf-8函数 python实现
unicode编码范围 00000000-0000007F的字符,用单个字节来表示: 00000080-000007FF的字符用两个字节表示 (中文的编码范围) 00000800-0000FFFF的字 ...

随机推荐

Fibonacci again and again（SG函数应用）
Fibonacci again and again Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/O ...
跨域 Ajax 其他可选技术异步
使用image pings 最早的跨域方法之一就是使用这个,任何域的<img>和<script>元素都可以随便加载. var img = new Image(); img.on ...
节点遍历 element traversal
任何一个node节点都可以作为遍历的根(traversal root),然后遍历该节点本身以及后代元素,不能遍历祖先或者兄弟元素,方向可以反转 <div id=”div1”> < ...
整数中1出现的次数（从1到n的整数中1出现的次数）
题目求出1~13的整数中1出现的次数,并算出100~1300的整数中1出现的次数?为此他特别数了一下1~13中包含1的数字有1.10.11.12.13因此共出现6次,但是对于后面问题他就没辙了.AC ...
mac环境下支持PHP调试工具xdebug，不需要建项目server
先让php支持xdebug 方式一: https://xdebug.org/download.php 下载相应的xdebug 可以到http://xdebug.org/wizard.php 把php ...
【Win 10 应用开发】UI Composition 札记（六）：动画
动画在 XAML 中也有,而且基本上与 WPF 中的用法一样.不过,在 UWP 中,动画还有一种表现方式—— 通过 UI Composition 来创建. 基于 UI Composition 的动画, ...
git打包
git help tag #tag的用法git taggit tag -d xxx #删除taggit tag v1.1 #新增taggit describe --tag #
分布式网络文件系统--MooseFS
一.介绍 1.简介 MooseFS是一个具备冗余容错功能的分布式网络文件系统,它将数据分别存放在多个物理服务器或单独磁盘或分区上,确保一份数据有多个备份副本.对于访问的客户端或者用户来说,整个分布式网 ...
struts2的简单执行过程
struts2是最近刚学的一个框架,想通过写篇文章来加深下印象,这也是本篇博文产生的由来,下面进入正题 Struts2本身是一个挺简单的框架,我们通过写一个登陆的过程来具体描述下其执行过程 1.首先我 ...
基于SwiperJs的H5/移动端下拉刷新上拉加载更多的效果
最早时,公司的H5项目中曾用过点击一个"加载更多"的DOM元素来实现分页的功能,后来又用过网上有人写的一个上拉加载更多的插件,那个插件是页面将要滚动到底部时就自动请求数据并插入到页 ...

使用Python提取中文字符

使用Python提取中文字符的更多相关文章

随机推荐

热门专题