【编码问题】if，for语句与中文编码

1. 首先先来说说中文的问题。众所周知，作死的python经常和中文过不去

每次，开头必须声明

# coding: utf-8

或者是

# -*- coding: utf-8 -*-

然而，被坑过的人都知道。这样是远远不够的，不折腾死你python是不会罢休的

print u"你好" # 打印成unicode的类型

print u"你好".encode('gbk') # 打印成unicode的类型，再转码成'gbk'的

print "你好".decode('gbk').encode('gbk') # 解码成unicode再转码成''gbk类型的

在powershell中，上述三种才能显示出中文。而raw_input(">>> ")就只能用后面2种了。

这是为什么呢？让我们来试验一下吧。

s1 = u"你好"

s2 = u"你好".encode('gbk')

s3 = "你好".decode('utf-8').encode('gbk')

print type(s1)

输出<type 'unicode'>

print type(s2)

输出<type 'str'>

print type(s3)

输出<type 'str'>

显然，放在raw_input(">>> ")里面的都是被包含" "的str字符串。你用第一种，unicode

类型的来替换str型的，当然会报错啦。

------------------------------------------------------------------------------------------------------

2. 接下来说说if语句和for语句的

txt = "123"

if 1 in txt:

print "Right"

很显然，这也是类型不对应导致的错误，所以，

data = raw_input(u"取值".encode('gbk'))

if data > "2" / if "2" in data:

这种的，同样要注意，两边都要是字符串

------------------------------------------------------------------------------------------------------

3.还有一种更变态的错法，就是当不是unicode类型的汉字，用到for语句时，元素个数会发生改变。

s1 = "你好"

s2 = s1.decode('utf-8')

s3 = s2.encode('gbk')

把字符串变成列表的三种方法, 就是下面的a依次变成a, a.split(), list()

def list(a):

empty = []

for i in a:

empty.append(i)

print len(a)

list(s1)

list(s2)

list(s3)

最终我们会发现只有unicode类的汉字的列表元素个数始终正确。而在这三种构成列表的方法中，也只有

a.split()时三种汉字的列表元素个数是相等的。所以，为了安全起见，我们以后用for...in...时，还是用u

型的汉字为好。最好都用unicode型的汉字。

那么，问题又来了，万一遇到始终都是str字符串型的raw_input()时该怎么办呢？

import sys

raw_input(">>> ").decode(sys.stdin.encoding)如此一来。里面就也弄不了中文提示了。

参考: http://www.tuicool.com/articles/yMrMzmQ

【编码问题】if，for语句与中文编码的更多相关文章

{MySQL数据库初识}一数据库概述二 MySQL介绍三 MySQL的下载安装、简单应用及目录介绍四 root用户密码设置及忘记密码的解决方案五修改字符集编码六初识sql语句
MySQL数据库初识 MySQL数据库本节目录一数据库概述二 MySQL介绍三 MySQL的下载安装.简单应用及目录介绍四 root用户密码设置及忘记密码的解决方案五修改字符集编码六 ...
数据库char varchar nchar nvarchar，编码Unicode，UTF8，GBK等，Sql语句中文前为什么加N（一次线上数据存储乱码排查）
背景公司有一个数据处理线,上面的数据经过不同环境处理,然后上线到正式库.其中一个环节需要将数据进行处理然后导入到另外一个库(Sql Server).这个处理的程序是老大用python写的,处理完后进 ...
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk ...
Python 编码简单说
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...
R语言读写中文编码方式
最近遇到一个很头疼的事,就是 R语言读写中文编码方式.在网上找到了一篇博文,谢谢博主的精彩分享,让我很快解决了问题,在此也分享一下 R语言读写数据的方法很多,这里主要是我在使用read.csv/rea ...
python 之 utf-8编码的秘密
python3的默认编码方案是utf-8编码,看了些资料,来做总结. 要说utf-8,就要说说unicode,要说unicode,就要说ASCII,我们还是慢慢来. 1.ASCII ASCII编码最初 ...
linux设置语言编码
前段时间在服务器上安装了centos6.2版本,当初安装时语言选择英文.这本来也没有什么问题,直到前一段时间.我的同事发现部署的web项目中出现乱码情况.但中文作为参数进行传递到下一个页面的时候就乱码 ...
java编码问题深入总结
Java语言能够这么普遍的应用,与其国际化的能力是分不开的,国际化的编码是Java国际化中最重要的一个组成部分,Java的国际化编码能力与其使用Unicode编码是直接相关的.在Java中,任何 ...
Java所有编码问题参考手册
一.编码基本知识 1．iso8859-1 ——属于单字节编码,最多能表示的字符范围是 0-255,应用于英文系列.比如,字母 'a' 的编码为0x61=97. 很明显,iso8859-1 编码表示的 ...

随机推荐

python项目练习地址
作者:Wayne Shi链接:http://www.zhihu.com/question/29372574/answer/88744491来源:知乎著作权归作者所有,转载请联系作者获得授权. 目前是3 ...
lda 主题模型--TOPIC MODEL--Gibbslda++结果分析
在之前的博客中已经详细介绍了如何用Gibbs做LDA抽样.(http://www.cnblogs.com/nlp-yekai/p/3711384.html) 这里,我们讨论一下实验结果: 结果文件包括 ...
获取checked的值
<div class="rule-multi-porp"> <span> <%var itemList = PublicQuery.GetItemLi ...
qmake 小结（Qt 5.4）
FROMS 变量的定义必须在include之前. MOC_DIR UI_DIR RCC_DIR 的定义必须使用绝对路径.
[Q]系统环境改变导致“未注册”的解决方法
据用户反映设置账户开机密码后显示未注册, 具体表现: 1. 重装试用版,重新获取注册申请码,发现注册申请码跟原来没有发生变化. 2. 重新使用原来的授权文件注册,但打开后显示未注册. 3. 发现“** ...
JQ怎么跳出 each循环
return false;——跳出所有循环:相当于 javascript 中的 break 效果. return true;——跳出当前循环,进入下一个循环:相当于 javascript 中的 con ...
Chapter 18_0 数学库
从今天起,开始接触Lua的标准库(数学库.table库.字符库.I/O库.操作系统库.调试库). 一路走来,从最基本的变量.函数.迭代器.协同程序到稍微复杂的元表.元方法.环境.模块,以及最后被整蒙了 ...
redis cluster中添加删除重分配节点例子
redis cluster配置好,并运行一段时间后,我们想添加节点,或者删除节点,该怎么办呢. 一,redis cluster命令行 //集群(cluster) CLUSTER INFO 打 ...
Ansible hostvars
1. inventory hosts file 中的server 变量会覆盖group变量. hostvars: { "iaas_name": "test", ...
java-jvisualvm远程监控tomcat
一.修改要访问的远程主机(Linux)相关文件,本文档只介绍了java-jvisualvm的JMX方式: 1.打开$CATALINA_HOME/bin/startup.sh, 找到倒数第二行(也就是e ...

【编码问题】if，for语句与中文编码

【编码问题】if，for语句与中文编码的更多相关文章

随机推荐

热门专题