【292】Python 关于中文字符串的操作

一、相关说明

Python 中关于字符串的操作只限于英文字母，当进行中文字符的操作的时候就会报错，以下将相关操作方法进行展示。

写在前面：如何获得系统的默认编码？

>>> import sys

>>> print sys.getdefaultencoding()

ascii

通过如下代码查询不同的字符串所使用的编码，具体操作详见：用chardet判断字符编码的方法

由此可见英文字符与中文字符用的是不一样的编码，因此需要将中文字符转为 Unicode 编码才能正常的计算了！

>>> import chardet

>>> print chardet.detect("abc")

{'confidence': 1.0, 'language': '', 'encoding': 'ascii'}

>>> print chardet.detect("我是中国人")

{'confidence': 0.9690625, 'language': '', 'encoding': 'utf-8'}

>>> print chardet.detect("abc-我是中国人")

{'confidence': 0.9690625, 'language': '', 'encoding': 'utf-8'}

通过 decode('utf-8') 将中文字符串解码，便可以正常操作，要相对中文字符进行相关操作，涉及到字符串函数的，需要按如下操作。

decode 的作用是将其他编码的字符串转换成 unicode 编码，如 str1.decode('utf-8')，表示将 utf-8 编码的字符串 str1 转换成 unicode 编码。
encode 的作用是将 unicode 编码转换成其他编码的字符串，如 str2.encode('utf-8')，表示将 unicode 编码的字符串 str2 转换成 utf-8 编码。

>>> m = "我是中国人"

>>> m

'\xe6\x88\x91\xe6\x98\xaf\xe4\xb8\xad\xe5\x9b\xbd\xe4\xba\xba'

>>> print m

我是中国人

>>> # 为解码前长度为15，utf-8编码

>>> len(m)

15

>>> n = m.decode('utf-8')

>>> n

u'\u6211\u662f\u4e2d\u56fd\u4eba'

>>> print n

我是中国人

>>> # 解码后长度为5，可以正常的操作，Unicode编码

>>> len(n)

5

将 utf-8 与 Unicode 编码转化函数如下：

def decodeChinese( string ):

	"将中文 utf-8 编码转为 Unicode 编码"

	tmp = string.decode('utf-8')

	return tmp

def encodeChinese( string ):

	"将 Unicode 编码转为 utf-8 编码"

	tmp = string.encode('utf-8')

	return tmp

二、截取中英文字符串

代码如下：

def cutChinese(string, *se):

	"实现汉字截取方法 —— 默认start为开始索引，不写end就是到结尾，否则到end"

	start = se[0]

	if len(se)>1:

		end = se[1]

	else:

		end = len(string)

	tmp = string.decode('utf-8')[start:end].encode('utf-8')

	return tmp

调用方法如下：

>>> from win_diy import *

>>> print win.cutChinese("我是一个abc", 2)

一个abc

>>> print win.cutChinese("我是一个abc", 2, 4)

一个

>>> print win.cutChinese("我是一个abc", 2, 5)

一个a

>>> print win.cutChinese("我是一个abc", 2, 6)

一个ab

参考：python截取中文字符串

三、判断变量编码格式

通过 isinstance 函数或 type 函数可以判断字符串类型
通过 chardet.detect 函数可以判断字符串的编码格式

>>> import chardet

>>> a = "abc"

>>> isinstance(a, str)

True

>>> chardet.detect(a)['encoding']

'ascii'

>>> isinstance(a, unicode)

False

>>> b = "中国"

>>> isinstance(b, str)

True

>>> chardet.detect(b)['encoding']

'utf-8'

>>> isinstance(b, unicode)

False

>>> # 用chardet.detect函数判断Unicode会报错

>>> c = b.decode('utf-8')

>>> isinstance(c, unicode)

True

参考：Python 字符编码判断

【292】Python 关于中文字符串的操作的更多相关文章

python+selenium之字符串切割操作
python+selenium之字符串切割操作在Python中自带的一个切割方法split(),这个方法不带参数,就默认按照空格去切割字段,如果带参数,就按照参数去切割. 新建一个python文件, ...
Python 基礎 - 字符串常用操作
字符串常用操作今天就介紹一下常用的字符串操作,都是以 Python3撰寫的首字母變大寫 #!/usr/bin/env python3 # -*- coding:utf-8 -*- name = & ...
python截取中文字符串
python的中文处理还是比较麻烦的,utf-8的字符串的长度是1-6个字符,一不小心就会从中截断,出现所谓的乱码.下面这个函数提供了,从一段utf-8编码的字符串中,截取固定长度的字串.ord(ch ...
python中关于字符串的操作
Python 字符串操作方法大全 python字符串操作实方法大合集,包括了几乎所有常用的python字符串操作,如字符串的替换.删除.截取.复制.连接.比较.查找.分割等,需要的朋友可以参考下 1. ...
python基础学习-字符串常见操作
字符串常见操作索引 s = "abcdefg" # 字符串数据,切片后取出的数据都是字符串类型 # 从左至右取值:从0开始 # 从右向左取值:从-1开始 print(" ...
Python中对字符串的操作
Python字符串的相关操作 1.字符串格式判断 s.isalnum() #所有字符都是数字或者字母 s.isalpha() #所有字符都是字母 s.isdigit() #所有字符都是数字 s.isl ...
python基础之字符串常用操作总结
字符串的索引 s = 'ABCDLSESRF' # 索引这两个很简单没什么说的 s1 = s[0] print(s1) # A s2 = s[2] print(s2) # C 切片 s = 'ABC ...
Python文本和字符串常用操作
## 字符串分割 line = "This is my love!" fields = line.split(' ') print(fields) # ['This', 'is', ...
【python 3】字符串方法操作汇总
基础数据类型:str 1.1 字符串大小写转换所有字母大写 : string.upper() 所有字母小写 : string. lower() 第一个单词的第一个字母大写,其他字母小写 : st ...

随机推荐

LeetCode OJ：Remove Nth Node From End of List（倒序移除List中的元素）
Given a linked list, remove the nth node from the end of list and return its head. For example, Give ...
JS兼容性汇总
1. Frame (1)问题:在IE中可以用window.top.frameId和window.top.frameName来得到该Frame所代表的Window,Firefox中只能用window ...
Framework、Cocoa、Xcode
什么是Cocoa? NeXTSTEP(以Unix作为内核的操作系统)内置的许多库(libraries)和工具,让程序员以一种优雅的方式与窗口管理器进行交互,这些libraries叫做Framework ...
eclipse新建web项目
方法/步骤首先,你要先打开Eclipse软件,打开后在工具栏依次点击[File]>>>[New]>>>[Dynamic Web Project],这个就代 ...
更改Linux栈空间大小
1.通过命令 ulimit -s 查看linux的默认栈空间大小,默认情况下为10240 即10M 2.通过命令 ulimit -s 设置大小值临时改变栈空间大小:ulimit -s 102400 ...
[置顶] Android 关于BottomDialogSheet 与Layout擦出爱的火花？
今天上班做那个类似于ios拍照的那种效果图就是个垂直布局然后里面textview+分割线+textview+button 当然也可以用button+分割线+button 方法有很多,选择适合自己的就 ...
everything 全盘文件查找工具及正则表达式的使用
首先需要开启 everything 工具在(字符串)查找时,对正则表达式功能的支持: [菜单栏]⇒ [Search]⇒ 勾选[Enable Regex] ctrl + i:字符大小写敏感/不敏感 1. ...
asp.net mvc获得请求体所有内容
代码如下 Stream req = Request.InputStream; req.Seek(0, System.IO.SeekOrigin.Begin); string json = new St ...
【占位】HihoCoder1317 跳舞链
跳舞链时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述小Ho最近遇到一个难题,他需要破解一个棋局. 棋局分成了n行,m列,每行有若干个棋子.小Ho需要从中选择若干行使得 ...
git撤销各种状态下的操作
使用Git时会出现各种各样的问题,下面是几种情况下怎么反悔的操作一,未加入缓存区,撤销文件修改 git checkout -- file 二,已加入缓存区,撤销文件提交 git reset HEAD ...

【292】Python 关于中文字符串的操作

【292】Python 关于中文字符串的操作的更多相关文章

随机推荐

热门专题