一个中文utf8编码后是占3个字符,所以求长度的函数可以这样写 def str_len(str): try: row_l=len(str) utf8_l=len(str.encode('utf-8')) +row_l except: return None return None unicode中汉字为两字节, utf-8中汉字为三字节 https://en.wikipedia.org/wiki/Unicode https://en.wikipedia.org/wiki/UTF-8…
下面这个小工具包含了判断unicode是否是汉字.数字.英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作. #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号.""" __author__="internetsweeper <zhengbin0713@gmail.com>…
下面这个小工具包含了 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号.""" __author__="internetsweepe…
Python 使用 UTF-8 编码(转) 原文出处:http://blog.chenlb.com/2010/01/python-use-utf-8.html 一般我喜欢用 utf-8 编码,在 python 怎么使用呢? 1.在 python 源码文件中用 utf-8 文字.一般会报错,如下: File "F:\workspace\psh\src\test.py", line 2 SyntaxError: Non-ASCII character '\xe4' in file F:\w…
python3的默认编码方案是utf-8编码,看了些资料,来做总结. 要说utf-8,就要说说unicode,要说unicode,就要说ASCII,我们还是慢慢来. 1.ASCII ASCII编码最初是由老美搞出来的,满足了英文在计算机中的的表达和存储.开始呢,ASCII使用一个字节的后7位来进行编码. 每位有0,1 两种状态,那么就有2^7个数(十进制从0~127)来代表128个不同的字符.后来人们又对ASCII码进行了扩展,把最高位也用上了,那么就又多了128个可编码的空间. 可是,全世界难…
接口测试的时候,发现接口返回内容是uncodie类型但是包含中文.在使用print进行打印时输出提示错误: UnicodeEncodeError: 'ascii' codec can't encode characters in position 733-738: ordinal not in range(128) 查阅资料发现是由于内容中包含了中文字符,导致unix系统在print解析是无法正常解析导致. 源码如下: def _ejson(con): comm = "echo '%s' | p…
最近参加了由CCF举办的数据挖掘比赛,主办方提供了csv格式的数据文件,由于中文显示乱码的问题,我先用txt文本编辑器将编码改为utf-8格式,但是在读取文件并输出读取结果时发生了问题,代码如下: # -*- coding:utf-8 -*- __author__ = 'Jz' csvPath = 'D:/coding_file/python_file/Big Data/trainUTF8.csv' try: csv = open(csvPath, 'r') lines = csv.readli…
要上传文件到后台的php服务器,服务器能收到中文,手机发送过去,却只能收到一堆转了UTF-8的编码(就是要decode后才是中文的编码).android这边上传文件通常是用stream方式上传的,用MultipartEntity这个开源包来上传了会有编码问题. 首先设置字段的编码 //CustomMultiPartEntity entity=new CustomMultiPartEntity(HttpMultipartMode.BROWSER_COMPATIBLE,null,Charset.fo…
我们知道Latex一般用CJK和CTEX宏包支持中文编辑,CJK和CTEX的默认编码是GBK,而windows下的默然编码就是GBK,因此CJK和CTEX不需要特殊配置就可以直接支持中文Latex编译,只需要用GBK编码保存文件即可.但是如果把文件的字符编码换成现在更加普遍的utf-8的话,应该怎么操作呢?在这里有3种方式可以使用. 1.CJKutf8 CJK有两个基本宏包:CJK和CJKutf8,其中后者面向utf-8编码,其一般使用方法如下: \usepackage{CJKutf8} \be…
题记 一般我喜欢用 utf-8 编码,在 python 怎么使用呢? 使用utf-8 文字 在 python 源码文件中用 utf-8 文字.一般会报错,如下: File "F:\workspace\psh\src\test.py", line 2 SyntaxError: Non-ASCII character '\xe4' in file F:\workspace\psh\src\test.py on line 2, but no encoding declared; see ht…