韩文unicode编解码
 
问题是这样,工作中遇到有韩文数据出现乱码,说是unicode码。
类似这样:

id    name
323 52186863
149 63637538
314 65516863
322 69826863
290 83645668
355 724851956025
397 724862416863
246 9152960052007500
203 836473ab538683507624
216 73ab5676538683507624
183 845b6863553198ce78d0
269 4e54554a5e9c
160 4e5e5e9c
107 4e5e73ab
85 4e5e76d47eca52a0686380ba
336 4e5e90f45f00
464 4e5e90f460bc
289 4e5e9f8b5e9c
430 4eb260bc
296 4eb26863
266 4ed85398529b635e80cc
428 4ed873ab60bc
310 4ed873ab80cc
212 4ed880ba79e6
312 4ef691dc
291 4ef74e5e
324 4ef74ffa
244 4ef7541d5e9c
249 4ef7541d5e9c
247 4ef760d15e9c
250 4ef760d15e9c
183 4ef762cc5e9c
349 4ef76863
151 4ef7699c
239 4ef76ca55e9c
348 4ef773ab
251 4ef77a8d5e9c
252 4ef7854a5e9c
449 4ef791dc5e9c
350 4ef79b425e9c
344 4f194ed85e9c
312 4f194ed86863
191 4f194ed89b42
248 4f195cbf5e9c
288 4f195df180cc
298 4f196863
452 4f1983e960bc
39 4f555088788d
36 4f555088788d538683507624

数据示例

在unicode中,每个韩文字符包含两个字节,四位16进制表示,下面验证一下:
linux,python2.7
 
>>> '전라남도'      #查看韩文字符串,每个韩文字符占3个字节(在utf-8编码下)
'\xec\xa0\x84\xeb\x9d\xbc\xeb\x82\xa8\xeb\x8f\x84'
>>> len('전라남도')
12
 
>>> '전라남도'.decode('utf-8')  #将韩文字符串按照utf-8解码为unicode
u'\uc804\ub77c\ub0a8\ub3c4'
>>> len('전라남도'.decode('utf-8'))
4
>>> u'전라남도'                 #系统默认将按照utf-8解码
u'\uc804\ub77c\ub0a8\ub3c4'
>>> len(u'전라남도')
4
----------------------因此把上述字符串转换为unicode----------------
 
>>> kr_code='4f555088788d538683507624'
>>> kr_len=len(kr_code)/4
>>> str_kr=''
>>> for i in range(kr_len):                 #16进制分组
...   str_kr=str_kr+ '\u'+kr_code[i*4:i*4+4]
...  
>>> str_kr
'\\u4f55\\u5088\\u788d\\u5386\\u8350\\u7624'
>>> kr_tmp=str_kr.decode('unicode-escape')  #转换为对应的unicode
>>> kr_tmp
u'\u4f55\u5088\u788d\u5386\u8350\u7624'
>>>  
 
----------------------将unicode按照utf-8编码----------------------
 
>>> print kr_tmp                            #打印输出(linux默认按照utf-8编码)
何傈碍历荐瘤
>>> kr_tmp.encode('utf-8')                  #按照utf-8编码,打印输出,
'\xe4\xbd\x95\xe5\x82\x88\xe7\xa2\x8d\xe5\x8e\x86\xe8\x8d\x90\xe7\x98\xa4'
>>> print '\xe4\xbd\x95\xe5\x82\x88\xe7\xa2\x8d\xe5\x8e\x86\xe8\x8d\x90\xe7\x98\xa4'
何傈碍历荐瘤
>>> '何傈碍历荐瘤'
'\xe4\xbd\x95\xe5\x82\x88\xe7\xa2\x8d\xe5\x8e\x86\xe8\x8d\x90\xe7\x98\xa4'
 
----------------------将unicode按照韩文EUC_KR编码----------------------
 
what?为甚么不是韩文,看来并不是utf-8编码,猜测韩文编码EUC_KR,试一下
>>> kr_tmp.encode(encoding='EUC_KR')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'euc_kr' codec can't encode character u'\u5088' in position 1: illegal multibyte sequence
----------------------将unicode按照中文GB18030编码----------------------
>>> #并不是,打印出汉字,难道是汉字编码?
>>> gb_str=kr_tmp.encode(encoding='GB18030') #按照GB18030编码
>>> print gb_str
>>> gb_str
'\xba\xce\xc0\xfc\xb0\xad\xc0\xfa\xbc\xf6\xc1\xf6'
>>> print gb_str                             #linux下按照utf-8无法编码
������������
>>> gb_str=kr_tmp.encode(encoding='GBK')     #按照GBK编码,与GB18030兼容,在window下显示为中文(GBK)
>>> gb_str
'\xba\xce\xc0\xfc\xb0\xad\xc0\xfa\xbc\xf6\xc1\xf6'  
>>> print gb_str                             #linux下按照utf-8无法编码,在window下显示为中文(GBK)
������������
----------------------将unicode按照中文GB18030编码----------------------
>>> kr_str=gb_str.decode('EUC_KR')           #按照EUC_KR编码
>>> kr_str
u'\ubd80\uc804\uac15\uc800\uc218\uc9c0'
>>> print kr_str                             #终于输出了韩文
부전강저수지
>>>
 
总结:
对unicode按照GB18030进行了编码====>>按照EUC_KR进行了解码====>>输出了韩文字符串
 
分析一下其原始unicode的产生过程:
韩文字符串====>>按照EUC_KR进行了编码====>>按照GB18030进行了解码====>>unicode
 
验证一下:
>>> u'부전강저수지'.encode('EUC_KR').decode(encoding='GBK')
u'\u4f55\u5088\u788d\u5386\u8350\u7624'
>>> print u'부전강저수지'.encode('EUC_KR').decode(encoding='GBK')
何傈碍历荐瘤
>>> kr_tmp
u'\u4f55\u5088\u788d\u5386\u8350\u7624'
>>>
 
最后:
当外文不能正常显示,显示为乱码(中文),有可能就是编码错误,本篇解决了韩文错误显示成中文的问题。

>>> text=u'捞抚绝澜'.encode('GB18030').decode('euc_kr')
>>> text
u'\uc774\ub984\uc5c6\uc74c'
>>> print text             #unicode
이름없음

>>> u_text= u'捞抚绝澜'.encode('gbk').decode('euc_kr').encode('utf-8')
>>> u_text
'\xec\x9d\xb4\xeb\xa6\x84\xec\x97\x86\xec\x9d\x8c'
>>> print u_text         #str
이름없음

python中的字符串编码问题——4.unicode编解码(以实际工作中遇到的韩文编码为例)的更多相关文章

  1. unicode 编解码记录

    unicode 万国码.世界上所有的符号都有对应的Unicode code point.一般是2个字节. 这个字节可以通过任意中方式编码为二进制,例如用来保存到文件.一般通过UTF-x(例如utf-8 ...

  2. Android中使用commons-codec-1.6.jar 进行Base64编解码出现的问题

    编码时出现异常: java.lang.NoSuchMethodError: No static method encodeBase64String([B)Ljava/lang/String; in c ...

  3. 中文unicode范围及unicode编解码

    中文unicode范围 : [\u4e00-\u9fa5] 普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:unicodestring = u"Hello ...

  4. 音视频编解码: YUV采样格式中的YUV444,YUV422,YUV420理解

    YUV各种采样格式的说明 通常我们用RGB表示一种彩色.计算机系统里的LCD显示的数据就是RGB来表示每个像素的颜色.而在我们生活里,有黑白电视机与彩色电视机两种,拍摄节目源时不可以用两种不同的摄像机 ...

  5. 【Python】使用内置base64模块进行编解码

    代码: import hashlib import base64 hash = hashlib.md5() hash.update('逆火Tu22m'.encode('utf-8')) print(h ...

  6. python学习笔记——字符串

    类方法string.upper(str)需要引入string模块,实例方法str.upper()不需要引入string模块 无与伦比的列表解析功能 # coding=utf-8 # 列表解析 prin ...

  7. JAVA字符编码二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换

    第二篇:JAVA字符编码系列二:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换   1.函数介绍 在Java中,字符串用统一的Unicode编码,每个字符占用两个字节,与编码有 ...

  8. 如何将Unicode文本写到日志文件中

    有时为了定位问题,我们需要结合打印日志来处理.特别是较难复现的,一般都需要查看上下文日志才能找出可能存在的问题.考虑到程序要在不同语言的操作系统上运行,程序界面显示要支持Unicode,打印出来的日志 ...

  9. php大力力 [024节]PHP中的字符串连接操作(2015-08-27)

    2015-08-27 php大力力024.PHP中的字符串连接操作 PHP中的字符串连接操作  阅读:次   时间:2012-03-25 PHP字符串的连接的简单实例 时间:2013-12-30 很多 ...

随机推荐

  1. windows server 2016安装docker

    最近微软发布了windows server 2016,并原生支持docker,本文通过一系列的步骤,来学习怎么在windows server 2016安装docker. 1.下载 windows se ...

  2. Java之集合(一)接口及抽象类

    转载请注明源出处:http://www.cnblogs.com/lighten/p/7278655.html 1.前言 从本章开始介绍Java的集合类,这些类主要存在于java.util包下,该系列基 ...

  3. sql 递归树

    with CTE as ( -->Begin 一个定位点成员 select ID, PersonName,ParentID,cast(PersonName as nvarchar(max)) a ...

  4. SpringBoot入门 (六) 数据库访问之Mybatis

    本文记录学习在SpringBoot中使用Mybatis. 一 什么是Mybatis MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射.MyBatis 避免了几乎所有的 ...

  5. video 安卓ios系统 浏览器 全屏播放以及自动播放的问题

    ios自动播放 <body onload="load()"> <div class="result_box"> <div clas ...

  6. Java 获取汉字串首字母并大写和获取汉字的全拼,英文字符不变

    在开发中我们难免会遇到需要提出汉字中的拼音的首字母.提出汉字的拼音,接着便介绍一个工具类 pinyin4j.jar,首先需要下载 jar 包. Pinyin4j是一个功能强悍的汉语拼音工具包,是sou ...

  7. jQuery+Ajax+PHP 制作简单的异步数据传输(测试用户名是否可用)

    实现基本异步数据传输,略去与数据库交换,先直接在PHP端判断:用户名为 user1 即为不可用, 测试时外加了 普遍的 “Loading..." 功能,此功能可直接在PHP中循环延时 for ...

  8. [HNOI 2018]转盘

    Description 题库链接 在一个环上有 \(n\) 个物品,第 \(i\) 个物品的出现时间为 \(T_i\) .一开始你可以任意选择一个物品的位置作为起始位置,然后以这个位置为起点沿正方向走 ...

  9. HTML5本地存储localStorage、sessionStorage基本用法、遍历操作、异常处理等

    HTML5 的本地存储 API 中的 localStorage 与 sessionStorage 在使用方法上是相同的,区别在于 sessionStorage 在关闭页面后即被清空,而 localSt ...

  10. ado.net中事务的使用

    ADO.Net中也提供了事务处理功能,通过ADO.net事务,可以将多个任务绑定在一起,如果所有的任务成功,就提交事务,如果有一个任务失败,就讲滚回事务 执行ADO.Net事务包含四个步骤,接下来以S ...