数据库存了些中文字符, 比如'处理脚本'这样的汉字, 结果导致一个python程序报错. 下面记录处理过程和相关结论.

===========================
dal.py 程序片段,python 2.7,
使用了pypyodbc模块
===========================
# -*- coding: utf-8 -*-
from __future__ import unicode_literals

def save(field_value):
    #logger.debug('%s'%type(field_value)) # trouble shooting  时加入的代码
    logger.debug('%s'%field_value)
    save_to_db(field_value)

上面这个程序, 当field_value是汉字时, 报错:
logger.debug报错, UnicodeDecodeError: 'utf8' codec can't decode byte 0xb4 in position 0: invalid start byte

===========================
原因分析:
===========================
我在logger.debug('%s'%field_value), 增加了如下代码, 发现field_value的类型是str, 非unicode.
logger.debug('%s'%type(field_value))

通过type(field_value)获知, field_value本身是str, 而不是unicode. 原因是field_value的值是在pypyodbc模块中初始化的, 并没有做自动做unicode转换.
在我们的py程序中, 表达式'%s'%field_value将实例化一个字符串,因为加了import unicode_literals, 默认是字符串变量将是unicode.
对于非unicode的field_value, python会自动按照utf-8做decode, 而实际上在DB中是按照GBK做的编码, 导致decode会报错.  
那为什么python会自作主张按照utf-8做decode呢? 我原以为是"# -*- coding: utf-8 -*-"和py文件按照utf-8存储, 经试验, 推翻了我的猜测. 有知道的朋友, 请告知.

===========================
测试了几个方法:
===========================
方法1:
  将__future__ 的unicode_literals 拿掉后, logger中汉字显示是乱码, 但save()函数最终存到DB中的汉字, 却没有问题.
方法2:
  将logger.debug('%s'%field_value)   换成 logger.debug(field_value), 不报错, 但logger中汉字显示是乱码
方法3:
  从DB中取出汉字后, 马上对其按GBK 做decode, 将其转成unicode类型, 然后再调用save()方法, 问题彻底解决了.
  field_value=field_value_raw.decode('GBK')  # here field_value is unicode

===========================
知识点:
===========================
1. unicode是一个编码字符集, 即为每个字符设定了一个对应的编码表, 至于如何存储字符的编码, 并没有做规定.  utf-8/utf-16等编码即是unicode的具体存储实现方式, 其中utf-8也是最常用的方式.
2. GB2312、GBK、 GB18030既是编码字符集, 也是存储方式.
3. 如果py文件加了# -*- coding: utf-8 -*-, 字符串默认将以utf-8编码存储, 而且Eclipse也很智能将文件也按照UTF-8存放.
4. 如果py文件加了from __future__ import unicode_literals, 本py文件中声明的字符串将按照unicode 类型.  
5. 对于py程序从DB取出汉字的过程, 涉及到两个不同世界的存储方式, 一般都需要先做decode, 将其转为unicode.
6. 如果使用的是Oracle数据库, 汉字若存在varchar字段, 要看NLS_CHARACTERSET设定值, 比如ZHS16GBK, 需要做decode('GBK');  如果汉字存在NVARCHAR中, 要看 NLS_NCHAR_CHARACTERSET 的设定, 因为NLS_NCHAR_CHARACTERSET多设定为UTF8, python程序就不需要做转换了.

===========================
延伸阅读:
===========================
如joel所讲, 每个开发人员都应该清楚unicode和char set知识, 推荐阮一峰的文章:
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
http://www.pythonclub.org/python-basic/encode-detail

字体编辑用中日韩汉字Unicode编码表
http://www.chi2ko.com/tool/CJK.htm

SO上unicode_literals的问答
http://stackoverflow.com/questions/809796/any-gotchas-using-unicode-literals-in-python-2-6

UnicodeDecodeError: 'utf8' codec can't decode的更多相关文章

  1. flask+sqlite3+echarts2+ajax数据可视化报错:UnicodeDecodeError: 'utf8' codec can't decode byte解决方法

    flask+sqlite3+echarts2+ajax数据可视化报错: UnicodeDecodeError: 'utf8' codec can't decode byte 解决方法: 将 py文件和 ...

  2. UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 47: invalid continuation byte

  3. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 22: invalid continuation byte

    在使用python读取文本文件,一般会这样写: # -*- coding:utf-8 -*- f = open("train.txt", "r", encodi ...

  4. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 52: invalid continuation byte

    代码: df_w = pd.read_table( r'C:\Users\lab\Desktop\web_list_n.txt', sep=',', header=None) 当我用pandas的re ...

  5. TensorFlow学习笔记(UTF-8 问题解决 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte)

    我使用VS2013  Python3.5  TensorFlow 1.3  的开发环境 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff ...

  6. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xef in position 99: invalid continuation byte

    Traceback (most recent call last): File "/Users/c2apple/PycharmProjects/easyToPython/fileMethod ...

  7. 解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

    在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: UnicodeDecodeError: 'utf-8' cod ...

  8. 用python3读CSV文件,出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid con

    使用pd.read_csv()读csv文件时,出现如下错误: UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd0 in position ...

  9. 解决Requests中文乱码【有用】,读取htm文件 读取txt文件报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0

    打开这个网址https://blog.csdn.net/chaowanghn/article/details/54889835 python在open读取txt文件时,出现UnicodeDecodeE ...

随机推荐

  1. Android成长日记-APP的签名和打包

    签名的意义: 1. 为了保证每个应用程序开发者的合法 2. 防止部分人通过使用相同的Package Name来混淆替换已经安装的程序,从而出现一些恶意篡改 3. 保证我们每次发布的版本的一致性 (如自 ...

  2. PHPCMS \phpcms\modules\member\index.php 用户登陆SQL注入漏洞分析

    catalog . 漏洞描述 . 漏洞触发条件 . 漏洞影响范围 . 漏洞代码分析 . 防御方法 . 攻防思考 1. 漏洞描述2. 漏洞触发条件 0x1: POC http://localhost/p ...

  3. hdu 2010 - 水仙花数

    题意: 数学上有个水仙花数,他是这样定义的:"水仙花数"是指一个三位数,它的各位数字的立方和等于其本身,比如:153=1^3+5^3+3^3.现在要求输出所有在m和n范围内的水仙花 ...

  4. 4 构建Mysql+heartbeat+DRBD+LVS集群应用系统系列之Lvs为Mysql-slave做负载均衡

    preface Mysql+drbd+heart能够实现Mysql的高可用了,master出现故障的时候能够快速切换.在现在的业务情况下,读操作多,写操作少的情况下,一台DB server明显扛不住, ...

  5. Codeforces Round #346 (Div. 2)E - New Reform(DFS + 好题)

    E. New Reform time limit per test 1 second memory limit per test 256 megabytes input standard input ...

  6. wpf arcglobe +c# 三维缩放到图层

    /// <summary>        /// 地图缩放到图层        /// </summary>        /// <param name="s ...

  7. openssl生成https证书 (转)

    1.首先要生成服务器端的私钥(key文件):openssl genrsa -des3 -out server.key 1024运行时会提示输入密码,此密码用于加密key文件去除key文件口令的命令:o ...

  8. jquery 获取 json文件内容后,将其内容显示到 下拉列表框中,再将下拉列表中的内容,显示到文本框中

    <script type="text/javascript"> $(function(){ $("#huoqv").click(function() ...

  9. ubuntu 安装php7.1

    sudo apt-get update sudo apt-get install -y language-pack-en-base locale-gen en_US.UTF-8 sudo apt-ge ...

  10. 9月12日JavaScript脚本语言

    JS脚本语言 JS脚本语言全称JavaScript,是网页里面使用的脚本语言,也是一门非常强大的语言. 一.基础语法 1.注释语法 单行注释:// 多行注释:/**/ 2.输出语法 ①alert(信息 ...