最近在做验证用户姓名的功能时发现这样一个现象.   >>len(u'打怪者') #unicode 3 >>len(u'打怪者'.encode('gbk')) #gbk 6 >>len('打怪者') #utf-8 9   一般都知道,gbk编码每个汉字占用2个字节,utf8编码的每个汉字占用3个字节,这就是很多网站不用统一标准utf8的原因,就是gbk占用字节少. 既然len(u'打怪者')等于3,长度比gbk和utf8编码的都小,直接用unicode的不是更节省吗? 其…
最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记.方便以后查阅和大家学习.        中文编码问题的处理核心都是——保证所有的编码方式一致即可,包括编译器.数据库.浏览器编码方式等,而Python通常的处理流程是将unicode作为中间转换码进行过渡.先将待处理字符串用unicode函数以正确的编码转换为Unicode码,在程序中统一用U…
VIM 的作者Bram Moolenaar在一篇叫高效文本编辑器的7个习惯的ppt中有这么一段话. Three basic steps 1.    Detect inefficiency 2.    Find a quicker way 3.    Make it a habit 即 1.检测哪里效率低下 2.找到一种更快的方法 3.养成习惯   这3个步骤可谓是大道至简.放之四海而皆准. 不止适用于vim,一样适用于python以及其他语言,也适用于现实生活. 这简单的道理很多人都懂,但是却有…
__new__: 对象的创建,是一个静态方法.第一个參数是cls.(想想也是,不可能是self,对象还没创建,哪来的self) __init__ : 对象的初始化, 是一个实例方法,第一个參数是self. __call__ : 对象可call.注意不是类,是对象. 先有创建,才有初始化.即先__new__,而后__init__. 上面说的不好理解,看样例. 对于__new__ class Bar(object): pass class Foo(object): def __new__(cls,…
背景:笔者作为一名刚接触python语言的新手,在实际的项目中,遇到过一些中文编码问题,初次遇到这些问题的时候,刚开始显得有些手足无措,也不知从何查起.常言道:有问题,找度娘!当我打开www.baidu.com后,并键入遇到的问题时,才发现这个问题非常泛滥,几乎可以用霸屏来形容(心中窃喜,终于有救了),但是关于python中文编码问题产生的原因和解决方法的描述可谓百花齐放,不够系统和彻底,顿觉空欢喜一场.因此,笔者写下这篇文章,深入分析一下python中文编码问题,第一是想自己与中文编码问题来个…
Python 中文编码 为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5.    GB2312(1980年)一共收录了7445个字符,包括6763个汉子和682个其他符号.汉字区的内码范围高字节从B0-E7,低字节A1-FE,占用的码位是72*94=6768.其中5个空位是D7FA-D7EF.           GB2312支持的汉字太少.1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字去和图形符号区.汉字区包括21003个字符,2000年的G…
Python 文本挖掘:解决Python中文编码问题 转于:http://rzcoding.blog.163.com/blog/static/2222810172013101785738166/   据说Python 最恶心的地方是中文编码问题,这也让很多人放弃使用Python.此刻我只想说..放弃得好!.. 因为这确实是Python 最恶心的问题,暂时木有之一. 在经过多次挫败,多次google,多次stackoverflow 无果之后,只有硬着头皮上..因为只会用Python 了摔! 终于我…
python到目前为止,一共有两个版本,分别是2.x和3.x版本,根据官方正式通知2020年停止对python更新和维护,距离今天还有110天左右,所以正在学习python的小伙伴应该暗中庆幸一波. python2.x版本默认采用ASCLL编码,python3.x版本则默认采用UTF-8编码,两者有什么区别呢?唯一区别就是如果代码或者注释中含有中文,ASCLL编码会出现乱码,UTF-8却可以正常显示中文,即python2.x版本中文显示不正常,python3.x版本正常. 一.为什么会出现乱码…
Python并发编程05 /死锁现象.递归锁.信号量.GIL锁.计算密集型/IO密集型效率验证.进程池/线程池 目录 Python并发编程05 /死锁现象.递归锁.信号量.GIL锁.计算密集型/IO密集型效率验证.进程池/线程池 1. 死锁现象 2. 递归锁 3. 信号量 4. GIL全局解释器锁 1. 背景 2. 加锁的原因: 3. GIL与Lock锁的区别 4. 为什么GIL保证不了自己数据的安全? 5. 验证计算密集型.IO密集型的效率 6. 多线程实现socket通信 7. 进程池,线程…
下面通过几个案例来分析一下, 注意:本节的parsematch函数请参考<妙用re.sub分析正则表达式解析匹配过程> 案例一: >>> re.findall(r".* .* (.*)",'第二回 悟彻菩提真妙理 断魔归本合元神') ['断魔归本合元神'] >>> parsematch(r".* .* (.*)",'第二回 悟彻菩提真妙理 断魔归本合元神') 第1次匹配,匹配情况: 匹配子串group(0): 第二回…
自python2.6开始,新增了一种格式化字符串的函数str.format(),可谓威力十足.那么,他跟之前的%型格式化字符串相比,有什么优越的存在呢?让我们来揭开它羞答答的面纱. 语法 它通过{}和:来代替%. “映射”示例 通过位置 In [1]: '{0},{1}'.format('kzc',18) Out[1]: 'kzc,18' In [2]: '{},{}'.format('kzc',18) Out[2]: 'kzc,18' In [3]: '{1},{0},{1}'.format(…
前面章节中我们已经学会了如何用 Python 输出 "Hello, World!",英文没有问题,但是如果你输出中文字符"你好,世界"就有可能会碰到中文编码问题.Python 文件中如果未指定编码,在执行过程会出现报错:#!/usr/bin/pythonprint "你好,世界";以上程序执行输出结果为: File "test.py", line 2SyntaxError: Non-ASCII character '\xe4'…
本文给除了python中几个有趣的用法,可以给我们不一样的启发 1: Python中模拟使用C++ 中的   cout << import sys  class ostream: def __init__(self,file): self.file = file def __lshift__(self,obj): self.file.write(str(obj)); return self cout = ostream(sys.stdout) cerr = ostream(sys.stderr…
在学习python以及在使用python进行项目开发的过程中,经常会使用print语句打印一些调试信息,这些调试信息中往往会包含中文,如果你使用python版本是python2.7,或许你也会遇到和我一样的问题:那就是print打印中文异常以及显示乱码问题.本文主要分析一下在linux下使用python2.7的print语句中文异常以及终端显示中文乱码问题的原因及解决办法.转载请注明出处,谢谢! 1.print打印显示的过程 图1. Print打印显示过程 Python2.7中调用print打印…
前言: Python可谓是现在很多人正在学或者想学的一个脚本语言了,提到学习自然就少不了拿项目练手,可是一般的项目根本提不起兴趣嘛,这10个项目可是非常有趣的,不信你看看. [Python 图片转字符画] 用 50 行 Python 代码完成图片转字符画小工具.通过实验将学习到 Linux 命令行操作,Python 基础,pillow 库的使用,argparse 库的使用. [使用 Python 生成分形图片] 用Python Turtle 模块,通过画出分形树(Fractal tree),科赫…
用 Python 输出 "Hello, World!",英文没有问题,但是如果你输出中文字符"你好,世界"就有可能会碰到中文编码问题. Python 文件中如果未指定编码,在执行过程会出现报错: #!/usr/bin/python print "你好,世界"; 以上程序执行输出结果为: File SyntaxError: Non-ASCII character , but no encoding declared; see http://www.…
原文:https://blog.csdn.net/handsomekang/article/details/9183303 Python字符串格式化--format()方法-----https://blog.csdn.net/i_chaoren/article/details/77922939 字符串对齐------------------------------------https://python3-cookbook.readthedocs.io/zh_CN/latest/c02/p13_…
首先,要明确encode()和decode()的差别 encode()的作用是将Unicode编码的字符串转换为其它编码格式. 比如:st1.encode("utf-8")  这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串 decode()的作用是把其它编码格式的字符串转换成Unicode编码的字符串. 比如:st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串 第二,除Unic…
中文编码问题是用中文的程序员经常头大的问题,在python下也是如此,那么应该怎么理解和解决python的编码问题呢? 我们要知道python内部使用的是unicode编码,而外部却要面对千奇百怪的各种编码,比如作为中国程序经常要面对的gbk,gb2312,utf8等,那这些编码是怎么转换成内部的unicode呢? 首先我们先看一下源代码文件中使用字符串的情况.源代码文件作为文本文件就必然是以某种编码形式存储代码的,python默认会认为源代码文件是asci编码,比如说代码中有一个变量赋值: s…
上一篇文章介绍和分析了python2.7中使用print遇到的中文编码问题的原因和解决方案,本篇主要介绍一下python2.7中执行文件读写可能遇到的编码问题. 1.文件读取 假如我们读取一个文件,文件保存时,使用的编码格式,决定了我们从文件读取的内容的编码格式,例如,新建一个文本文件test.txt, 编辑内容,保存的时候注意,编码格式设定为gb2312,那么使用python读取文件内容,方式如下: f = open('test.txt','r') s = f.read() #读取文件内容,如…
一 死锁现象 所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去.此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程,如下就是死锁 from threading import Thread from threading import Lock import time # 实例化两把不同的锁 mutexA = Lock() mutexB = Lock() class MyThread(Threa…
第一步:在代码中输入以下命令,执行: #在Python中显示中文注释和输出中文a ="中文"print a 返回错误: d:\Python27\python.exe "D:\test\中文.py"Process started >>>  File "D:\test\中文.py", line 1SyntaxError: Non-ASCII character '\xe5' in file D:\test\中文.py on line…
1. 下面的语句要放在代码开头,指定文件编码, 可以识别 脚本中的所有字符和中文. # -*- coding:utf-8 -*- 2. codecd 编码转换 如果想要读取文本中的中文,需要借助于codecs的一套open方法,而不是内置的open. #-*- coding:utf-8 -*- print '我是' import codecs f=codecs.open("e:/python/test_data/chinese.txt") content=f.read() f.clos…
1.文件首#coding=utf-8 作用:为了把文件内容编码python所识别的utf-8,若不指定编码格式,则会出现以下错误: 2. 文件储存指定编码为utf-8 作用:将文件编码成utf-8.如果编码成gbk,则会显示以下告警 3.python 数据库要指定编码:charset='utf8',否则数据库显示中文为乱码. 4.winxp 的系统编码格式是gbk 整体来说:就是文件编码.Python的编码,数据库的编码格式这三者要一致,才能正确显示中文…
通过内置方法len()来计算字符串的长度,注意这个计算的是字符的长度. aa = 'afebb'bb = '你'print len(aa)print len(bb)…
  有时候我们从其它地方接受的字符串经过艰难跋涉,它变了个样.比如收到的是'\u6253\u602a\u8005'而不是u'\u6253\u602a\u8005'. 明明肉眼看起来只需要加个u,但是怎么加呢? >>s = '\u6253\u602a\u8005' >>s '\\u6253\\u602a\\u8005' >>'u'+s 'u\\u6253\\u602a\\u8005'   这样不行. 而且表面看起来是'\u6253\u602a\u8005',其实内部是'\…
当项目有很多文件时,要找出控制台的输出是在哪里print出来的很麻烦,不过这事对于强大的python来说小菜一碟. 先上代码和效果,再说明. import sys,traceback class mystdout: stdout = sys.stdout def write(self,_str): if _str != '\n': filepath,lineno = traceback.extract_stack()[-2][0:2] mystdout.stdout.write("%s\t%s(…
曾经客户端的同事用as写一大堆代码来排序,在得知python排序往往只需要一行,惊讶无比,遂对python产生浓厚的兴趣. 之前在做足球的积分榜的时候需要用到多条件排序,如果积分相同,则按净胜球,再相同按进球数,再相同按失球数. 即按积分P.净胜球GD.进球GS.失球GA这样的顺序. 在python中,排序非常方便,排序的参数主要有key.reverse.参数cmp不建议使用了,在python3.0被移除了,用参数key代替. 对于多条件排序,也非常简单,只需要记住下面这句话就行. 即 参数ke…
最近德甲英超西甲各大联赛重燃战火,想起之前写过的一段生成赛程表的代码,用python来写这类东西太舒服了. 这个算法叫做蛇环算法. 即,把所有球队排成一个环形(2列),左边对阵右边,第一支队伍不动,其他队伍顺时针循环,这样就肯定不重复了. 为了方便说明,假设有8支球队a到h.像下面那样按环形排好. a h |   | b g |   | c  f |   | d-e 这样,第1轮的对阵就是,(a,h)(b,g)(c,f)(d,e). 下一轮的时候,第一支球队a不动,其它球队像齿轮一样顺时针走一格…
最近有个需求,要检测配置中的那些url的域名是否都正常,即是否都能ping通. 不过配置中url格式是这样的 http://www.something.com:1234/ . 要ping的是www.something.com. 要把url中的域名抽离出来,一般会想到的是切割字符串,或者用正则表达式. 不过有个更干净利落的方法,就是python标准库自带的urlparse.url的各个部分都可以用这个东东抽离出来. >> url = 'http://www.something.com:1234/…