python 编码问题

参考原文：http://www.crifan.com/eclipse_pydev_console_messy_char_for_console_is_utf8/

通用

rq = urllib.urlopen(url)

respHtml = rq.read()

respInfo = rq.info()

if("Content-Encoding" in respInfo):

    if "gzip" == respInfo['Content-Encoding']:

        respHtml = zlib.decompress(respHtml, 16+zlib.MAX_WBITS)

    elif "deflate" == respInfo['Content-Encoding']:

        respHtml = zlib.decompress(respHtml, -zlib.MAX_WBITS)

如果出现 --- u'\xe4\xbb\x8a\xe5\xa4\xa9' 这种情况：

str1 = u'\xe4\xbb\x8a\xe5\xa4\xa9'
print str1.encode('latin1').decode('utf8')

解这个问题的 tricky 之处在于利用这个特性： 
Unicode codepoints U+0000 to U+00FF all map one-on-one with the latin-1 encoding 

先将 unicode 字符串编码为 latin1 字符串，编码后保留了等价的字节流数据。 
而此时在这个问题中，这一字节流数据又恰恰对应了 utf8 编码，因此对其进行 utf8 解码即可还原最初的 unicode 字符。 
不过值得注意的是，需要确定的是形如\xe8\xb4\xa2 究竟是 utf8 编码还是类似 gbk 的其他类型编码， 
这一点对于最终正确还原 unicode 字符也是同样重要的。

出现原因参考：http://stackoverflow.com/questions/9845842/bytes-in-a-unicode-python-string

python3 中使用 unicode_escape

print('英国'.encode("unicode_escape"))
>>> b'\\u82f1\\u56fd'

如果是 '\\x\\x\\x' 这种类型可以通过以下两种方式

a = '5424gdfg\\x63\\x73\\x4b\\x48\\x77\\x71\\x4d\\x49'
print(text.encode().decode('unicode_escape'))

import ast

a = '"' + a + '"'
print(ast.literal_eval(a))

URLEncode 与 unquote

from urllib import unquote

例如：http://fz.letfind.com/fang/citylist.asp

可以直接用unquote解码，但是 %u4E09%u660E 这种是不能转码的。

参考：http://bbs.htpc1.com/thread-92901-1-1.html

解码方法：先用替换将字符串"%uxxxx%uxxxx"转化为"u'\uxxxx\uxxxx'"，然后用eval函数强制转换为unicode

aaa = '%u4E09%u660E'
bbb=eval("u'"+aaa.replace("%","\\")+"'")
print bbb

备注：eval(str [,globals [,locals ]])函数将字符串str当成有效Python表达式来求值，并返回计算结果

顺带提供一个编码方法，以后一样用得到：

a = "我是中国人"

b = ''

for item in a.decode("utf8"):

    b = b + "%u" + "%x" % ord(item)

print b

备注：
（1）ord()函数返回对应的ASCII数值，或者Unicode数值
（2）%是格式化运算符，%x 无符号十六进制整数，a～f采用小写形式；%X 无符号十六进制整数，A～F采用大写形式

alert('\u6682\u65F6\u65E0\u6CD5\u83B7\u53D6\u8BE5\u623F\u6E90\u4FE1\u606F\uFF0C\u8BF7\u7A0D\u540E\u5C1D\u8BD5\uFF01');location.href='http://cd.letfind.com';

直接用 .decode('unicode-escape') 转换成中文

python3:

from urllib import parse

url = quote(url, safe=string.printable)

url = quote(url, safe='/:?=')

url 链接中包含中文的，只对中文进行url编码：

list_url = urllib.quote(list_url.encode('gb2312'), safe=string.printable)

对post数据编码：

post_data = urllib.urlencode(values)

接受参数形式为：[(key1, value1), (key2, value2),...] 和 {'key1': 'value1', 'key2': 'value2',...}

python3

from urllib import parse
data = parse.urlencode(data).encode('utf-8')


判断字符编码类型：

import chardet

print chardet.detect('吾问无为谓我我我我')

{'confidence': 0.99, 'encoding': 'utf-8'}

#coding=utf8

# python2

import HTMLParser

parser = HTMLParser.HTMLParser()

s1 = parser.unescape('测试')

print s1

# output: 测试

s2 = parser.unescape('测试')

print s2

# output: 测试

# python3 转换
import html
s1 = "图片中可能有：2 位用户"
print(html.unescape(s1))
# output: 图片中可能有2位用户

或者替换 &#x 为 \u


url 的编码方式：

a = '辛集市'
b = u'辛集市'

print urllib.quote(a) # %E8%BE%9B%E9%9B%86%E5%B8%82
print urllib.quote(a.encode('gbk')) # %D0%C1%BC%AF%CA%D0
print urllib.quote(b.encode('gbk')) # %D0%C1%BC%AF%CA%D0
print urllib.quote(b) # 直接编码会报错 KeyError



下载网页通用编码问题：

def get_root(url,send_headers=None):

    '''

    获取url的root节点

    :param url:

    :return:

    '''

    try:

        if send_headers is not None:

            request = urllib2.Request(url=url, headers=send_headers)

        else:

            request = urllib2.Request(url=url)

        resp = urllib2.urlopen(request,timeout=10)

        resp_html = resp.read()

        resp_info = resp.info()

        if "Content-Encoding" in resp_info:

            if "gzip" == resp_info['Content-Encoding']:

                resp_html = zlib.decompress(resp_html, 16+zlib.MAX_WBITS)

            elif "deflate" == resp_info['Content-Encoding']:

                resp_html = zlib.decompress(resp_html, -zlib.MAX_WBITS)

        resp.close()

        code = chardet.detect(resp_html)['encoding'] # 获取编码方式1

        if code is None:

            code = resp_info.getparam('charset') # 获取编码方式2

        html = resp_html.decode(code, 'ignore')

        root = htmlparser.fromstring(html)

        return root

    except Exception, e:

        print 'get_root error:', url, e

View Cod

python 编码问题的更多相关文章

(转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
Python 编码简单说
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...
Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
python编码规范
python编码规范文件及目录规范文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格空格设置用空格符替换TAB符. ...
【转】python编码的问题
摘要: 为了在源代码中支持非ASCII字符,必须在源文件的第一行或者第二行显示地指定编码格式: # coding=utf-8 或者是: #!/usr/bin/python # -*- coding: ...
【转】python编码规范
http://blog.csdn.net/willhuo/article/details/49300441 决定开始Python之路了,利用业余时间,争取更深入学习Python.编程语言不是艺术,而是 ...
python 编码 UnicodeDecodeError
将一个py脚本从Centos转到win运行,出错如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: il ...
Python编码/文件读取/多线程
Python编码/文件读取/多线程个人笔记~~记录才有成长编码/文件读取/多线程编码常用的一般是gbk.utf-8,而在python中字符串一般是用Unicode来操作,这样才能按照单个字 ...
关于Python编码，超诡异的，我也是醉了
Python的编码问题,真是让人醉了.最近碰到的问题还真不少.比如中文文件名.csv .python对外呈现不一致啊,感觉好不公平. 没图说个JB,下面立马上图. 我早些时候的其他脚本,csv都是 ...
规范的python编码
规范的 python 编码令人赏心悦目,令代码的表达逻辑更清晰,使得工程代码更容易被维护和交流: 编码规范包括对于代码书写格式的约束,不良语法的禁用和推荐的编码手法,下面做些简要的描述: 1. 代码规 ...

随机推荐

关于数组去重的几种方法-------javascript描述
第一种方法:借助json对象来实现,若json对象中无该属性则添加,否则不添加,最后返回json对象的属性,时间复杂度为O(n) function deleteArrayRepeat(arr) { v ...
This is US 我们的生活
温情暖心剧看点在于真实,能让人找到不少共鸣像极了平淡而操蛋的生活,不断交织着苦涩和甘甜,柴米油盐.酸甜苦辣.嬉笑打闹.悲欢离合.温情又不尽如人意 this is us,our life 生活有如柠檬 ...
Linux下多线程下载利器 axel
参考 https://teddysun.com/377.html 使用示例: axel -an https://ubuntu-mate.org/raspberry-pi/ubuntu-mate-16. ...
WPF直接用Window.Close直接关闭窗口导致不能完全退出的问题
前几天我在CSDN扔了一个问题,基本描述一下:写了一段这样的代码,来实现获取Control的template,却发现一个这样的问题,就是当我打开了一个window以后,手动调用Close(),窗口的确 ...
h5手机页面禁止缩放
<meta name="viewport" content="width=device-width, initial-scale=1, user-scalable= ...
Werkzeug工具包学习-官方例子Shortly分析
为了学习werkzeug的wsgi框架工具,今天真对官网的例子进行调试运行.涉及到了werkzeug工具包,jinja2前端模版,以及redis内存库,之后可以灵活定制自己主页.再次,作以记录. 首先 ...
input表单手机号、身份证号验证
<form action="" method="post" onsubmit="return checkForm(this)"> ...
Navicat Premium连接Oracle 问题汇总
同感，C#对JSON序列化和反序列化有点蹩脚
http://www.cnblogs.com/baisoft/p/5860676.html
PHP中的date()函数
d 月份中的第几天,有前导零的 2 位数字 01 到 31 D 星期中的第几天,文本表示,3 个字母 Mon 到 Sun j 月份中的第几天,没有前导零 1 到 31 l ("L&q ...

python 编码问题

python 编码问题的更多相关文章

随机推荐

热门专题