python处理编码问题和JSON格式

从文件读出数据：默认utf8编码

json.dumps()输出数据：默认unicode编码

json读取（json是种通用的数据传输格式）

import ujson as json #for performance

jobj = json.loads(json_str) #type(jobj)==<type ‘dict’>

json_str = json.dumps(jobj) #默认输出unicode

json.dumps(jobj, ensure_ascii=False) #输出utf8格式

字符串做key：

>>> s={}

>>> s[1]=((2,3))

>>> json.dumps(s)

'{"1":[2,3]}’

log，redis，mc_cache，hbase存储都建议使用json格式

python -mjson.tool #json排版显示

ultra json不支持python中long类型：

>>> import json, ujson

>>> json.dumps(18446744073709551616L)

'18446744073709551616'

>>> ujson.dumps(18446744073709551616L)

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

OverflowError: long too big to convert

json.dumps输出的字符串手动粘贴置为常量，需要字符串转义，vim操作是s/"/\\"/g

简单介绍：

http://www.ruanyifeng.com/blog/2009/05/data_types_and_json.html

json格式：

http://www.json.org/json-zh.html

http://www.jsoneditoronline.org/

中文编码

def to_utf8(s):

return s if isinstance(s, str) else s.encode('utf8')

def to_unicode(s):

return s if isinstance(s, unicode) else s.decode('utf8')

中文unicode不能写文件

空格转utf8后无法用strip()去除

>>> s=u' 有的时候，之所以哭泣，并不是因为软弱，而是因为坚强太久。@_@search_tab'

>>> t=u'有的时候，之所以哭泣，并不是因为软弱，而是因为坚强太久。@_@search_tab'

>>> s

u'\xa0\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> t

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> s.strip()

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> t.strip()

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> s.encode('utf8')

'\xc2\xa0\xe6\x9c\x89\xe7\x9a\x84\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe4\xb9\x8b\xe6\x89\x80\xe4\xbb\xa5\xe5\x93\xad\xe6\xb3\xa3\xef\xbc\x8c\xe5\xb9\xb6\xe4\xb8\x8d\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe8\xbd\xaf\xe5\xbc\xb1\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe5\x9d\x9a\xe5\xbc\xba\xe5\xa4\xaa\xe4\xb9\x85\xe3\x80\x82@_@search_tab'

>>> t.encode('utf8')

'\xe6\x9c\x89\xe7\x9a\x84\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe4\xb9\x8b\xe6\x89\x80\xe4\xbb\xa5\xe5\x93\xad\xe6\xb3\xa3\xef\xbc\x8c\xe5\xb9\xb6\xe4\xb8\x8d\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe8\xbd\xaf\xe5\xbc\xb1\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe5\x9d\x9a\xe5\xbc\xba\xe5\xa4\xaa\xe4\xb9\x85\xe3\x80\x82@_@search_tab'

>>> s.encode('utf8').strip()

>>> t.encode('utf8').strip()

参考：也谈 Python 的中文编码处理

http://in355hz.iteye.com/blog/1860787

python处理编码问题和JSON格式的更多相关文章

python判断字符串是否是json格式方法分享
python判断字符串是否是json格式方法分享在实际工作中,有时候需要对判断字符串是否为合法的json格式解决方法使用json.loads,这样更加符合'Pythonic'写法代码示例: ...
python 使用eval() 可以将json格式的数据,转换为原始数据
使用python 自带的函数可以将json 格式的数据(也就是字符串)转换为原始格式的数据, 当使用json.loads()无法将json格式的数据转换为原始数据(存在多层各种格式类型数据的嵌套), ...
Python mysql表数据和json格式的相互转换
功能: 1.Python 脚本将mysql表数据转换成json格式 2.Python 脚本将json数据转成SQL插入数据库表数据: SQL查询:SELECT id,NAME,LOCAL,mobil ...
Python：numpy数组转换为json格式
在python中,如何将一个numpy数组转换为json格式? 这是最近遇到的一个问题,做个笔记. 假设arr为numpy数组,将其转换为json格式: 总体思想是①首先转换为python的list, ...
python requests方法post请求json格式处理
方法如下: import requestsimport json data = { 'a': 123, 'b': 456} ## headers中添加上content-type这个参数,指 ...
python读取excel数据为json格式(兼容xls\xlsx)
做自动化时需要从excel读取数据: 本文实现将excel文件数据读取为json格式,方便自动化调用读取xls文件使用xlrd读取xls文件代码: import xlrd def read_xls ...
python json.dumps()函数输出json格式，使用indent参数对json数据格式化输出
在python中,要输出json格式,需要对json数据进行编码,要用到函数:json.dumps json.dumps() :是对数据进行编码 #coding=gbkimport json dict ...
python 把数据 json格式输出
有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u ...
Python将JSON格式数据转换为SQL语句以便导入MySQL数据库
前文中我们把网络爬虫爬取的数据保存为JSON格式,但为了能够更方便地处理数据.我们希望把这些数据导入到MySQL数据库中.phpMyadmin能够把MySQL数据库中的数据导出为JSON格式文件,但却 ...

随机推荐

can通信实验
源码讲解 1.硬件连接需要两个开发板 2.初始化函数讲解针对F103的 3.发送函数讲解 4.接收函数讲解 5.main函数讲解
c#中public，private,protected,internal的区别
public 可以被外部成员调用 private 只能在被类的成员调用 protected 只能在被类的成员和该类的子类调用 internal 可以在当前项目调用 pub ...
ConnectionState详解
ConnectionState有六个属性值ConnectionState.Broken;与数据源连接断开.只有在连接打开后才有可能发生这种情况.可以关闭处于这种状态下的连接,然后重新打开.Connec ...
Dev Envirenment - VS Code && C++ && MinGW
1. 安装编译器安装 MinGW-W64 添加系统环境变量注意: 1)安装 MinGW 的时候要选择正确的 CPU 处理器类型 2)添加系统变量后需要重启电脑系统 2. 安装本文编辑器安装 VS ...
Service Fabric 群集在Service Replica过多的情况下报错问题
首先 Service Fabric 群集是正常的,部署一些服务过后也能正常运行,但一旦部署的服务过多后,且每个服务不止一个Partition,就有可能让群集状态为Error,但其实服务还是在正常运行的 ...
unity googleplay随手记
googleplay设置进入play console后可以发布应用点击所有应用->创建应用(这部经常报错误码,多试几次就ok可能和vpn有关) 创建一个应用成功后,这个应用就会包含上面所有选 ...
Jenkins+Git+Maven+Nexus+Tomcat
https://www.jianshu.com/p/d24e64559440 https://blog.csdn.net/u013322876/article/details/72637854 htt ...
zookeeper客户端使用第三方(Curator)封装的Api操作节点
1.为什么使用Curator? Curator本身是Netflix公司开源的zookeeper客户端: Curator 提供了各种应用场景的实现封装: curator-framework 提供了f ...
[TJOI2017]DNA （FFT）
[Luogu3763] FFT做字符串匹配即可,详见代码 // luogu-judger-enable-o2 #include<cstdio> #include<cstring> ...
关于c语言的位运算&，|，^（看懂汉字的都能看懂）
其中|,&可以当作逻辑运算符,当|,&当成逻辑运算符时,与||,&&的用法基本相似,&&,||运算时会当前面的表达式能够决定整个表达式,则不进行对后面的 ...

python处理编码问题和JSON格式

python处理编码问题和JSON格式的更多相关文章

随机推荐

热门专题