python 处理html文本的中文字符gbk转utf-8

#中文字符gbk转utf-8 def gbk2utf8(self,raw): rs=raw.encode('raw_unicode_escape') #转为机器识别字符串 s=repr(rs) ss=unicode(eval(s),"gbk") #gbk解码为unicode utf8_str=ss.encode('utf-8') #unicode编码为utf-8 return utf8_str…

数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可:利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index. python代码如下:(data数据时csv格式) import csv dict2 = {} #Cdict4 = {} #Edict25 = {} #zdict26 = {} #AAdict27 = {} #ABdict37 = {} …

python利用utf-8编码判断中文字符

下面这个小工具包含了判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号.""" __author__="internetsweepe…

PHP中文字符gbk编码与UTF-8编码的转换

通常PHP中上传文件,如果文件名称有中文字符,上传之后的名称是无法写入到本地的,因为上传来的编码格式一般是UTF-8的格式,这种格式是无法给文件命名并且存储到操作系统磁盘.在写入之前需要将其转换为gbk的中文编码格式: $fileName=iconv("UTF-8", "gbk", $fileName); 同样,从系统磁盘中读取文件获得的文件名称是gbk编码格式,这种格式php也是无法传递给其他页面,这时候就需要将它编码成UTF-8的格式 $fileName=ico…

判断一个python字符串中是否包含中文字符

#在python中一个汉字算一个字符,一个英文字母算一个字符 #用 ord() 函数判断单个字符的unicode编码是否大于255即可. def is_contain_chinese(check_str): #check_str是一个unicode编码的字符.例如 #check_str=u'fff好几个' for ch in check_str: #if u'\u4e00' <= ch <= u'\u9fff': if ord(ch) > 255: print(ch) 参考文档:http…

python中文字符乱码（GB2312，GBK，GB18030相关的问题）

转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬家工具BlogMover,其包含几个python脚本,其中有个是163博客搬家用的163-blog-mover.py,实现抓取网易博客的日志,然后导出xml. 但是其工具现在(2011-12-10)已经失效了.经过自己一点修改后,可以实现获得文章标题了. 用法还是原先的用法: 163-blog-m…

【已解决】python中文字符乱码（GB2312，GBK，GB18030相关的问题）

http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ [已解决]python中文字符乱码(GB2312,GBK,GB18030相关的问题) [背景] 在玩wordpress的一个博客搬家工具BlogMover,其包含几个python脚本,其中有个是163博客搬家用的163-blog-mover.py,实现抓取网易博客的日志,然后导出xml. 但是其工具现在(2011-12-10)已经失效了.经过自己一点修…

python 中文字符的处理

刚开始学习python的时候,都是对这英文的翻译书学习的.没有解除到中文编码的相关问题,直到自己用python去做相关的项目的时候才发先中文编码问题真的非常头疼啊.这里分享一下本人所了解的一些经验. 读取utf-8个格式存储的文件 1. 假如现在有一个文件test.txt,里面有内容“python学习”,该文件以utf-8格式存储.那么读取并输出该字符串的方法如下: filehandle=open("test.txt","r") ## the file is sav…

Python中文字符的理解：str()、repr()、print

Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理解到了.通宵了好几夜,各种试验,print.print再print,中文还是既得不到也输不出.看了网上几乎所有主要的相关文章,还是没搞定.沉静下来开始反思:是他们写的不好,还是我理解的不好?所以我决定,再加深程度,一步一个脚印地研究这个问题,不忽略任何一个小细节的理解.先从字符串在Python中最基…

python利用utf-8编码判断中文英文字符(转)

下面这个小工具包含了判断unicode是否是汉字.数字.英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作. #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号.""" __author__="internetsweeper <zhengbin0713@gmail.com>…

python第二十九课——文件读写(读取读取中文字符)

演示:读取中文字符结论: 1).如果不设置encoding,默认使用gbk进行编解码 2).如果编码和解码不一致,最终导致报错,但是一旦设置了errors='ingore',那么就不会报错,而采取乱码现象显示 3).tell():返回的是文件描述符的字节位 4).对于读操作,必须保证路径中的文件一定是真实存在的,否则报错:FileNotFoundError #打开文件: f2=open(r'F:\PyCharm\多味红豆\python第二十九课——文件读写\a.txt','r',encodin…

[python]有中文字符程序异常的解决方案

一. 含有中文字符无法运行在python3中用的是Unicode编码,Unicode号称万国码,可以向所有的编码进行兼容.不会出现这种问题. Python2中使用的是ASCII编码,会出现这种问题.解决步骤如下. 对代码的编码进行注解在头部加入 coding=utf-8 或者 #-- coding:utf-8 -- 二.无法打印中文字符对文件进行编码解码 python2 Python编码之间Unicode作为中间的过度.所以编码能够进行通用: -- coding:utf-8 -- s =…

Notepad++正则表达式查找替换文本中文字符

测试需求测试工具中xml配置文件中注释字段包含中文字符,在Win10系统下使用工具中偶尔会出现中文乱码导致配置文件失效.解决方法将配置文件中的中文注释换成英文注释或者直接替换删除.如何将配置文件中的中文字符查找删除? 操作步骤在Notepad文本工具中使用正则表达式匹配中文字符并替换.当然你可以采用Python写个小工具也无不可.Notepad中使用正则表达式[^\x00-\xff]匹配中文字符. 1.构造包含中文文本用于测试,包含中文字符.普通字符和特殊字符. 2.中文字符正则表达式匹配:…

PyCharm 中文字符 python 报错的完美解决方案！

PyCharm 中文字符 python 报错的完美解决方案! #_*_ coding:utf-8_*_ https://www.python.org/dev/peps/pep-0263/ 到python 的官网看了一下,找到了问题的根本原因! python 默认使用 ASCII 作为标准编码格式: python 指定字符编码格式的时候,必须使用以下3种方式之一: (不同系统,不同编辑器,可能不同,都实验一下就能找到了!) # coding=<encoding name> 或 #!/us…

UTF-8和GBK等中文字符编码格式介绍及相互转换

我们有很多时候需要使用中文编码格式,比如gbk.gb2312等,但是因为主要针对中文编码设置,因此并不完全通用,这样一来就有了在各编码间相互转换的需求,比如和UTF8的转换.可是在我使用的过程中,却发现编码转换并没有想象中的简单,或者说可能会出错,即使你使用的系统API.我在使用中,产生一些疑惑,搜索资料也没有完全解决我的问题,因此整理了这篇文章.文章末尾列出了我参考的一些资料或者代码实现等,在此谢过. 本文先各个中文编码进行介绍,只做简单介绍,不涉及详细原理(本文结尾附有链接可参阅),然后实例…

python 连接数据库-设置oracle ，mysql 中文字符问题

import cx_Oracle import MySQLdb def conn_oracle(): cnn = cx_Oracle.connect('用户名','密码','ip:端口号/数据库') //用户名,密码,ip端口号数据库 cur = cnn.cursor() return cnn,cur def close_oracle(cnn,cur): cur.close() cnn.close() def conn_mysql(): cnn = MySQLdb.connect(user="用…

python处理中文字符

1.在py文件中使用中文字符 unicode.py文件内容如下所示: # -*- coding:utf-8 -*- str_ch = '我们women' uni_ch = u'我们women' print "type:", type(str_ch), "content:", str_ch, repr(str_ch) print "type:", type(uni_ch), "content:", uni_ch, repr(un…

中文字符 unicode转utf-8函数 python实现

unicode编码范围 00000000-0000007F的字符,用单个字节来表示: 00000080-000007FF的字符用两个字节表示 (中文的编码范围) 00000800-0000FFFF的字符用3字节表示转换规则 0000~007F 1字节 0xxxxxxx 0080~07FF 2字节 110xxxxx 10xxxxxx 0800~FFFF 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx…

python匹配某个中文字符

python2.7对中文的支持不好是众所周知的,现在遇到这样一个需求,要匹配某个中文字符.查了一个资料,思路就是转化为unicode进行比较,记录如下: line = '参考答案: A' # gbk -> unicode # 看需要,这里是把gbk转化为unicode,也可以把utf-8转换为unicode line = line.decode('gbk').strip() # 匹配 '参考答案' 四个字 if re.match(u'^\u53c2\u8003\u7b54\u6848', lin…

python 判断字符串中是否只有中文字符

python 判断字符串中是否只有中文字符学习了:https://segmentfault.com/q/1010000007898150 def is_all_zh(s): for c in s: if not ('\u4e00' <= c <= '\u9fa5'): return False return True…

处理python字符串中的中文字符

# -*- coding:utf-8 -*- import sys,os txta = open('a.txt','r') str = '' for line in txta: str += line.strip().decode('utf-8') txta.close() for word in str: print word.encode('utf-8') 直接输出,是会乱码的,得先解码,再编码. 参考网址:http://blog.csdn.net/devil_2009/article/de…

Python中文字符问题

Python中对中文字符的操作时常会使程序出现乱码不全然管用的处理方法: 读取数据时使用encode编码为Bytes以保护数据使用时转化为string并使用decode解码如: title = title_origin[0].encode('utf-8') title = str(title.decode('utf-8'))…

Python: 在CSV文件中写入中文字符

0.2 2016.09.26 11:28* 字数 216 阅读 8053评论 2喜欢 5 最近一段时间的学习中发现,Python基本和中文字符杠上了.如果能把各种编码问题解决了,基本上也算对Python比较熟悉了. For UTF-8 encoding, Excel requires BOM (byte order mark) codepoint written at the start of the file or it will assume ANSI encoding, which is…

使用Python提取中文字符

#功能:国际化测试,用于提取应用设计包中的中文字符,并输出report#解压---筛选---整理路径---提取中文---输出报告 ################################################################# #author: 陈月白 #_blogs: http://www.cnblogs.com/chenyuebai/ ##############################################################…

python基础（7）：字符编码

今天我们进入字符编码的学习.字符编码是一个多理论少结论的知识点,我会总结很多的知识点.我们只需要通读当作了解即可,最后我会总结需要我们理解掌握的重点. 一.学习字符编码的计算机基础储备 1.计算机软件运行基础图解 2.文本编辑器存取文件原理.(nodepad++,pycharm,word) 打开编辑器就打开了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失.因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上. 在这一点上,我们编写一个py文件(没有…

python第三天基础之字符编码

一了解字符编码的知识储备 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上. 在这一点上,我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字符而已. 2. python解释器执行py文件的原理 ,例如python test.py 第一阶段:python解释器启动,…

Python 关于 encode与decode 中文乱码问题

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码. encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2…