Python locale 多语言模块和我遇到的坑
Table of Contents
locale遇到的问题
今天工作上遇到一个 locale
相关的问题,关于字符串格式化的。不过让我们先从 locale
说起。
locale 简介
什么是locale
locale 这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。locale 是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。通常情况下它可以按照涉及使用习惯分为12大类:
- 语言符号及其分类(LC_CTYPE)
- 数字(LC_NUMBERIC)
- 比较习惯(LC_COLLATE)
- 时间显示格式(LC_TIME)
- 货币单位(LC_MONETARY)
- 信息主要是提示信息,错误信息,状态信息,标题,标签,按钮和菜单等(LC_MESSAGES)
- 行么书写方式(LC_NAME)
- 地址书写方式(LC_ADDRESS)
- 电话号码书写方式(LC_TELEPHONE)
-度量衡表达方式(LC_MEASUREMENT)
- 默认纸张尺寸大小(LC_PAPER)
- 对locale 自身包含信息的概述(LC_IDENTIFICATION)
- 除此之外还有一个LANGUAGE参数,它与LC_MESSAGES相似
比如像下面的例子里:
在“简体中文”环境,运行date 命令,显示的是:
2016年11月24日 星期四 22时59分26秒 CST
而在英文环境下,运行date 命令,显示的是
Thu Nov 24 23:05:12 CST 2016
简单来说, locale
为计算机上提供了国际化和本地化转化的环境
locale 相关命令
在Unix下可以通过命令 locale
来查看当前语言环境,我的Mac上的显示如下:
➜ locale
LANG=
LC_COLLATE="zh_CN.UTF-8"
LC_CTYPE="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_ALL="zh_CN.UTF-8"
locale值格式类似为: 语言_地区.字符集
可以这样来查看系统支持locals值
locale -a
可以用如下的方式来临时改变shell的locale设定:
➜ test git:(master) ✗ LC_ALL=C
➜ test git:(master) ✗ export LC_ALL
➜ test git:(master) ✗ locale
LANG=
LC_COLLATE="C"
LC_CTYPE="C"
LC_MESSAGES="C"
LC_MONETARY="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_ALL="C"
设置的时候注意以下几点:
- LANG,LC*的默认值,是最低级别的设置,如果LC*没有设置,则使用该值。类似于 LCALL
- LCALL,它是一个宏,如果该值设置了,则该值会覆盖所有LC*的设置值。注意,LANG的值不受该宏影响
- LCALL=C 意思是去除所有本地化的设置
Python locale
python提供了 locale
这个模块,可以用来操作locale相关数据,官方文档参见这里。
其中主要的结果方法如下
import locale
# 返回当前环境locale categorg相关的设定,category默认为 LC_CTYPE
# LC_CTYPE 决定字符处理函数相关行为,比如 string 函数
locale.getlocale([category])
# 尝试判断默认的locale设置,并且以元组的形式返回(language code, encoding)
locale.getdefaultlocale([envvars])
# 修改locale category 的设定为 locale的值, 比如locale.setlocale(locale.LC_ALL, 'C'), C 代表去除所有本地化设置
# 如果第二个参数locale没有提供,那么会返回category的设置
locale.setlocale(category[, locale])
# 很多程序会像下面这样开头,这样做会将所有的locale设置成用户默认的设置(通常是环境变量LANF的值)。
# 但setlocale() 不能在所有系统上保证线程安全性,这点要注意
import locale
locale.setlocale(locale.LC_ALL, '')
当在shell里启动python repl(交互器)时,默认的环境local设置为'C', 也就是没有本地化设置,这时候可以通过 locale.getdefaultlocale()
来查看shell当前环境的locale设置, 并通过 locale.setlocale(locale.LC_ALL, '')
将python解释器的locale设置成shell环境的locale,具体事例如下:
Python 2.7.10 (default, Oct 23 2015, 19:19:21)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import locale
>>> locale.getlocale()
(None, None)
>>> locale.getdefaultlocale()
('zh_CN', 'UTF-8')
>>> locale.setlocale(locale.LC_ALL, '')
'zh_CN.UTF-8'
>>> locale.getdefaultlocale()
('zh_CN', 'UTF-8')
>>> locale.getlocale()
('zh_CN', 'UTF-8')
我踩的坑
strptime 和 strftime
正所谓当局者迷,今天当我遇到同样的代码,不同的环境(shell执行和pycharm执行)居然有不同的执行结果时,我百思不得其姐(嘿嘿)。
代码片段是关于 strptime
的:
import time
time.strptime('Thu, 24 Nov 2016 07:01:59 GMT', '%a, %d %b %Y %H:%M:%S GMT')
其实呢,strptime或者strftime格式化参数里有一些是跟locale相关的,比如这里的 %a %b
等,所以在不对的 locale
环境下,格式化出现了错误。
可以参考下面的示例:
Python 2.7.10 (default, Oct 23 2015, 19:19:21)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import time
>>> time.strptime('Thu, 24 Nov 2016 07:01:59 GMT', '%a, %d %b %Y %H:%M:%S GMT')
time.struct_time(tm_year=2016, tm_mon=11, tm_mday=24, tm_hour=7, tm_min=1, tm_sec=59, tm_wday=3, tm_yday=329, tm_isdst=-1)
>>> import locale
>>> locale.setlocale(locale.LC_ALL, '')
'zh_CN.UTF-8'
>>> time.strptime('Thu, 24 Nov 2016 07:01:59 GMT', '%a, %d %b %Y %H:%M:%S GMT')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/_strptime.py", line 467, in _strptime_time
return _strptime(data_string, format)[0]
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/_strptime.py", line 325, in _strptime
(data_string, format))
ValueError: time data 'Thu, 24 Nov 2016 07:01:59 GMT' does not match format '%a, %d %b %Y %H:%M:%S GMT'
>>> time.strptime('2016 07:01:59', '%Y %H:%M:%S')
time.struct_time(tm_year=2016, tm_mon=1, tm_mday=1, tm_hour=7, tm_min=1, tm_sec=59, tm_wday=4, tm_yday=1, tm_isdst=-1)
>>>
阿里云oss sdk 使用遇到的问题
用阿里云oss-python-SDK上传文件时,当我本地locale设置成 zh_CN.UTF-8
时,就回一直出问题,原因就在于上述的 strptime
, 阿里云sdk代码片段如下:
def to_unixtime(time_string, format_string):
with _STRPTIME_LOCK:
return int(calendar.timegm(time.strptime(time_string, format_string)))
然而从oss服务器上获得的timestring是这样的: Thu, 24 Nov 2016 07:01:59 GMT
, 所以在我的环境里做格式化就会出错,所以我对代码做了如下修改:
def to_unixtime(time_string, format_string):
with _STRPTIME_LOCK:
time_locale = locale.setlocale(locale.LC_TIME)
if time_locale.find('en') != 0 and time_locale != 'C':
locale.setlocale(locale.LC_TIME, 'en_US')
unixtime = int(calendar.timegm(time.strptime(time_string, format_string)))
locale.setlocale(locale.LC_TIME, time_locale)
else:
unixtime = int(calendar.timegm(time.strptime(time_string, format_string)))
return unixtime
在调用 strptime
这个方法前增加了兼容,先检查locale,如果不是英文类型并且不是默认的"C"类型时,将 LC_TIME
切换成英文,执行完 strptime 后再还原回来。
参考资料
- https://docs.python.org/2/library/locale.html#module-locale
- http://blog.csdn.net/Nicolase/article/details/42499521
- http://www.cnblogs.com/dolphi/p/3622570.html
- https://docs.python.org/2/library/time.html#time.strptime
Python locale 多语言模块和我遇到的坑的更多相关文章
- SpaceVim 语言模块 python
原文连接: https://spacevim.org/cn/layers/lang/python/ 模块简介 功能特性 依赖安装及启用模块 启用模块 语法检查 代码格式化 格式化 imports 快捷 ...
- Python学习笔记-常用模块
1.python模块 如果你退出 Python 解释器并重新进入,你做的任何定义(变量和方法)都会丢失.因此,如果你想要编写一些更大的程序,为准备解释器输入使用一个文本编辑器会更好,并以那个文件替代作 ...
- Day5 - Python基础5 常用模块学习
Python 之路 Day5 - 常用模块学习 本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shel ...
- python 学习day5(模块)
一.模块介绍 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能 ...
- Python基础5-常用模块
本节大纲 模块介绍 time &datetime模块 random os sys shutil shelve xml处理 yaml处理 configparser hashlib subproc ...
- python学习笔记_week5_模块
模块 一.定义: 模块:用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能), 本质就是.py结尾的python文件(文件名:test.py,对应模块名:test) 包:用来从逻辑上 ...
- Python基础5 常用模块学习
本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shelve xml处理 yaml处理 configpars ...
- Python正则表达式与re模块介绍
Python中通过re模块实现了正则表达式的功能.re模块提供了一些根据正则表达式进行查找.替换.分隔字符串的函数.本文主要介绍正则表达式先关内容以及re模块中常用的函数和函数常用场景. 正则表达式基 ...
- Python(五)模块
本章内容: 模块介绍 time & datetime random os sys json & picle hashlib XML requests ConfigParser logg ...
随机推荐
- Row_number() OVER(PARTITION BY xxx ORDER BY XXX)分组排序
--//创建一个信息表 ,) ,),st_name ),class ),score ,)) --//插入测试数据============start=================== insert ...
- 浩顺晶密K-5 打卡时间设置
公司有一台浩顺晶密K-5打卡设备,因为时间异常需要重新调整,设备外部就几个按钮,全部按了一遍发现没有任何变化,所以肯定是哪里操作不对,然后用钥匙打开这个设置,上面有一排文字,分别是设置.+.-.确认等 ...
- python读入文档中的一行
从文件log_fusion中读入数据 方法1 f = open("log_fusion.txt") # 返回一个文件对象 line = f.readline() # 调用文件的 r ...
- 如何把某个网站的SSL Server certificate链导入到ABAP Netweaver系统里
我们在用ABAP代码消费外网的url时会遇到一些异常,比如ICM_HTTP_SSL_PEER_CERT_UNTRUSTED,这是因为请求的url所在的网站的SSL Server certificate ...
- 你真的会用ABAP, Java和JavaScript里的constructor么?
如果constructor里调用了一个成员方法,这个方法被子类override了,当初始化一个子类实例时,父类的构造函数被的调用,此时父类构造函数的上下文里调用的成员方法,是父类的实现还是子类的实现? ...
- Jenkins使用分组过滤分类
背景:Jenkins项目过多,通过选项卡的方式过滤需要的项目 1.点击选择卡上的加号 2.填写要分组的名字 3.可选择某个job进行分类,或者使用正则表达式的方式进行分类,楼主是根据正则进行匹配, 4 ...
- python url库学习
参考资料:http://cuiqingcai.com/947.html urllib,urlib2是python自带的库. urlopen(url,data,timeout),三个参数. 第一个是地址 ...
- 整数N分解,搭积木,离散数学中的母函数,ZOJ(1163)
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1163 解题报告: 将整数N分解为:两个及以上的不重复的整数,最流 ...
- AJAX(三):GET与POST
1.使用场景get是最常见的请求类型,最常用于向服务器查询某些信息仅次于get的是post请求,通常用于向服务器发送应该被保存的数据 2.使用get请求经常会发生一个错误,就是查询字符串的个是有问题, ...
- 【转】Android xml资源文件中@、@android:type、@*、?、@+含义和区别
一.@代表引用资源 1.引用自定义资源.格式:@[package:]type/name android:text="@string/hello" 2.引用系统资源.格式:@andr ...