Python入门 —— 04字符串解析
字符串
-字符串是 Python 中最常用的数据类型。(可以说是大多数语言都常用)
1. 创建字符串
( '' 或 "" 和 '''''')(单,双和三引号)(字符串可以为空)
-单引号:包含普通字符串,可以包含双引号,不能包含特殊字符。
-双引号:可以包含单引号。
-三引号:可以包含单引号和双引号,可以包含特殊字符。三引号包含的字符串可由多行组成,一般可表示大段的叙述性字符串。(所见即所得)
str = '' (此时字符串str即为空)
str1 = 'hello'
str2 = "world"
str3 = '''
<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>ERROR</H3>
<B>%s</B><P>
<FORM><INPUT TYPE=button VALUE=Back
ONCLICK="window.history.back()"></FORM>
</BODY></HTML>
Tab (\t)__str
special [\n\n] string
'''
注意:特殊字符:制表符 \t 换行符 \n
输出:
<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>ERROR</H3>
<B>%s</B><P>
<FORM><INPUT TYPE=button VALUE=Back
ONCLICK="window.history.back()"></FORM>
</BODY></HTML>
Tab ( )__str
special [
] string
2. 访问字符串
可用*下标*的形式访问字符串中的字符。
#!/usr/bin/python3
# _*_ coding:UTF-8 _*_
str1 = 'hello'
str2 = "world"
# 利用下标
print ("str1[1]:", str1[1]) # str1[1]: e
# [左边界:右边界] 可以取到下标1,取不到4
print ("str2[1:4]:", str2[1:4]) # str2[1:4]: orl
# [左边界:右边界:步数] 隔一定的步数,取一次值
print ("str2[0:5:2]:", str2[0:5:2]) # str2[0:5:2]: wrd
输出:
str1[1]: e
str2[1:4]: orl
str2[0:5:2]: wrd
3. 转义字符
在字符串中使用特殊字符时,前面加反斜杠(\)转义字符。
| 转义字符 | 描述 |
|---|---|
| (在行尾时) | 续行符 |
| \ | 反斜杠符号 |
| ' | 单引号 |
| " | 双引号 |
| \a | 响铃 |
| \b | 退格(Backspace) |
| \000 | 空 |
| \v | 纵向制表符 |
| \t | 横向制表符 |
| \n | 换行 |
| \r | 回车 |
| \f | 换页 |
| \oyy | 八进制数 |
| \xyy | 十六进制数 |
4. 特殊的操作符
- 字符串连接: +
"hello" + "world"
输出"helloworld"
- 重复输出字符串: *
"hello" * 3
输出:"hellohellohello"
- 成员运算符: in 和 not in
'e' in "hello" : 输出: True 'a' in "hello"
输出: False
- 输出原始字符串: r/R
print r("\n") 或 print R("\n")
输出:\n
- 输出Unicode 字符串:u
print (u'Hello\u0020World !')
输出:u'Hello World !'
- 格式化字符串: %
print ("I am %s, i'm %d !" % ("xiaoming",18))
输出:I am xiaoming, i'm 18 !
**注意点**
从左到右依次查看 "I am %s, i'm %d !" % ("xiaoming",18)
%s、%d 为字符串格式化符号
% 格式符 注意:<< 后面与对应值有个空格隔开>>
("xiaoming",18) 与%s,%d一一对应的值
- python字符串格式化符号:
%s 字符串 (采用str()的显示)
%r 字符串 (采用repr()的显示)
%c 单个字符
%b 二进制整数
%d 十进制整数
%i 十进制整数
%o 八进制整数
%x 十六进制整数
%e 指数 (基底写为e)
%E 指数 (基底写为E)
%f 浮点数
%F 浮点数,与上相同
%g 指数(e)或浮点数 (根据显示长度)
%G 指数(E)或浮点数 (根据显示长度)
%% 字符"%"
- 附:格式化操作符的一些辅助指令:
* 定义宽度或者小数点精度
- 用做左对齐
+ 在正数前面显示加号( + )
<sp> 在正数前面显示空格
# 在八进制数前面显示零('0'),在十六进制前面显示'0x'或者'0X'(取决于用的是'x'还是'X')
0 显示的数字前面填充'0'而不是默认的空格
(var) 映射变量(字典参数)
m.n m 是显示的最小总宽度,n 是小数点后的位数(如果可用的话)
例:
print(">|%+10x|<" % 10)
print(">|%04d|<" % 5)
print(">|%6.3f|<" % 2.3)
print(">|%.*f|<" % (4, 1.2))
输出:(>| |< 仅作分割线)
>| +a|<
>|0005|<
>| 2.300|<
>|1.2000|<
- format 函数 详细 ( 转载自CSDN "踏实_进取")
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。
基本语法是通过 {} 和 : 来代替以前的 % 。
format 函数可以接受不限个参数,位置可以不按顺序。
>>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序
'hello world'
>>> "{0} {1}".format("hello", "world") # 设置指定位置
'hello world'
>>> "{1} {0} {1}".format("hello", "world") # 设置指定位置
'world hello world'
5. 常用方法 可参考这里
- str.strip() str.lstrip() str.rstrip(',') # 去空格及特殊符号
- str.split() # 分割字符串,返回字串串列表,默认以空格分割
- len(str) # 返回字符串长度
- str.count() # 返回该字符串中某个子串出现的次数
- str.find() # 返回某个子串出现在该字符串的起始位置
- str.lower() # 将该字符串全部转化为小写
- str.upper() # 转为大写
- str.swapcase() # 大小写互换
- str.capitalize() # 首字母大写
- int(str) # 转成整型
- float(str) # 转成浮点型
- ord() # char->ascii
- chr() # ascii->char
6. string 模块 详见 (2.x)
字符串内建支持的方法,所有的方法都包含了对Unicode的支持,有一些甚至是专门用于Unicode的。
string.capitalize()
把字符串的第一个字符大写string.strip([obj])
在 string 上执行 lstrip()和 rstrip()string.count(str, beg=0, end=len(string))
返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数string.decode(encoding='UTF-8', errors='strict')
以 encoding 指定的编码格式解码 string,如果出错默认报一个 ValueError 的 异 常 , 除非 errors 指 定 的 是 'ignore' 或 者'replace'string.encode(encoding='UTF-8', errors='strict')
以 encoding 指定的编码格式编码 string,如果出错默认报一个ValueError 的异常,除非 errors 指定的是'ignore'或者'replace'string.endswith(obj, beg=0, end=len(string))
检查字符串是否以 obj 结束,如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束,如果是,返回 True,否则返回 False.string.expandtabs(tabsize=8)
把字符串 string 中的 tab 符号转为空格,tab 符号默认的空格数是 8。
string.find(str, beg=0, end=len(string))
检测 str 是否包含在 string 中,如果 beg 和 end 指定范围,则检查是否包含在指定范围内,如果是返回开始的索引值,否则返回-1string.format()
格式化字符串string.index(str, beg=0, end=len(string))
跟find()方法一样,只不过如果str不在 string中会报一个异常.string.isalnum()
如果 string 至少有一个字符并且所有字符都是字母或数字则返
回 True,否则返回 Falsestring.isalpha()
如果 string 至少有一个字符并且所有字符都是字母则返回 True,
否则返回 Falsestring.isdecimal()
如果 string 只包含十进制数字则返回 True 否则返回 False.string.isdigit()
如果 string 只包含数字则返回 True 否则返回 False.string.islower()
如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是小写,则返回 True,否则返回 Falsestring.isnumeric()
如果 string 中只包含数字字符,则返回 True,否则返回 Falsestring.isspace()
如果 string 中只包含空格,则返回 True,否则返回 False.string.lower()
转换 string 中所有大写字符为小写.string.lstrip()
截掉 string 左边的空格string.maketrans(intab, outtab])
maketrans() 方法用于创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。string.istitle()
如果 string 是标题化的(见 title())则返回 True,否则返回 Falsemin(str)
返回字符串 str 中最小的字母。max(str)
返回字符串 str 中最大的字母。string.isupper()
如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是大写,则返回 True,否则返回 Falsestring.swapcase()
翻转 string 中的大小写string.title()
返回"标题化"的 string,就是说所有单词都是以大写开始,其余字母均为小写(见 istitle())string.translate(str, del="")
根据 str 给出的表(包含 256 个字符)转换 string 的字符,
要过滤掉的字符放到 del 参数中string.upper()
转换 string 中的小写字母为大写string.zfill(width)
返回长度为 width 的字符串,原字符串 string 右对齐,前面填充0string.isdecimal()
isdecimal()方法检查字符串是否只包含十进制字符。这种方法只存在于unicode对象。string.join(seq)
以 string 作为分隔符,将 seq 中所有的元素(的字符串表示)合并为一个新的字符串string.ljust(width)
返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串string.partition(str)
有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把 字 符 串 string 分 成 一 个 3 元 素 的 元 组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.string.replace(str1, str2, num=string.count(str1))
把 string 中的 str1 替换成 str2,如果 num 指定,则替换不超过 num 次.string.rfind(str, beg=0,end=len(string) )
类似于 find()函数,不过是从右边开始查找.string.rindex( str, beg=0,end=len(string))
类似于 index(),不过是从右边开始.string.rjust(width)
返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串string.rpartition(str)
类似于 partition()函数,不过是从右边开始查找.string.rstrip()
删除 string 字符串末尾的空格.string.split(str="", num=string.count(str))
以 str 为分隔符切片 string,如果 num有指定值,则仅分隔 num 个子字符串string.splitlines([keepends])
按照行('\r', '\r\n', \n')分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。string.startswith(obj, beg=0,end=len(string))
检查字符串是否是以 obj 开头,是则返回 True,否则返回 False。如果beg 和 end 指定值,
则在指定范围内检查.string.center(width)
返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
7.正则表达式 指南 ( 转载自博客园 "AstralWind" ) 官方文档
常用函数:(re模块)
- compile() # 将正则表达式字符串编译成正则re对象
- search() # 在目标字符串中匹配正则表达式
- match() # 从目标字符串第一个字符开始匹配正则表达
search和match匹配成功返回MatchObject对象,失败返回None
>>> p = re.compile('abc')
>>> p.search('zabcy')
<_sre.SRE_Match object at 0x2a95659030>
不先编译成正则re对象也是可以的,上例也可以为:
>>> re.search('abc','xabcy')
<_sre.SRE_Match object at 0x2a95659098>
compile还可加些标志位,例如:re.I(re.IGNORECASE)忽略大小写
>>> p = re.compile('abc')
>>> print p.search('xAbCy')
None
>>> p = re.compile('abc',re.I)
>>> print p.search('xAbCy')
<_sre.SRE_Match object at 0x2a9565a098>
search和match区别见下例:
>>> p = re.compile('abc')
>>> print p.search('xxxabcyyy')
<_sre.SRE_Match object at 0x2a95659030>
>>> print p.match('xxxabcyyy')
None
>>> print p.match('abcyyy')
<_sre.SRE_Match object at 0x2a95659098>
- split() # 类似字符串内置函数split()
区别在于:内置split()以确定字符串分割,而正则split函数以正则表达式分割字符
例如:以空格(1个或者多个空格)分割:
>>> p.split('a b c d')
['a', 'b', 'c', 'd']
而内置split分割的结果为:
>>> 'a b c d'.split(' ')
['a', 'b', '', '', 'c', '', 'd']
- findall() # 返回目标字符串中匹配正则表达式中所有子串列表
>>> p = re.compile('^([a-z]{2}):([1-9]{3}):(.+)$')
>>> p.findall('as:123:a12')
[('as', '123', 'a12')]
上例中正则表达式的子串为3个用括弧括起的,分别为:'[a-z]{2}'、'[1-9]{3}'、'.+', 分别被as、123、a12匹配,注意此返回的是匹配字符串元组的一维列表。
Python入门 —— 04字符串解析的更多相关文章
- python入门7 字符串操作
字符串操作 #coding:utf-8 #/usr/bin/python """ 2018-11-03 dinghanhua 字符串操作 ""&quo ...
- python入门6 字符串拼接、格式化输出
字符串拼接方式 1 使用 + 拼接字符串 2 格式化输出:%s字符串 %d整数 %f浮点数 %%输出% %X-16进制 %r-原始字符串 3 str.format() 代码如下: #codin ...
- Python入门:字符串的分片与索引、字符串的方法
这是关于Python的第3篇文章,主要介绍下字符串的分片与索引.字符串的方法. 字符串的分片与索引: 字符串可以用过string[X]来分片与索引.分片,简言之,就是从字符串总拿出一部分,储存在另一个 ...
- Python入门之 字符串操作,占位符,比较大小 等
Python 字符串 常用的操作 切片 左包括右不包括的原则 ________________ 比较字符串大小 eg: cmp("a",'b') -1第一个比第二个小 0 ...
- python入门之字符串的魔法
1.test="alex" v=test.capitalize() print(v) //输出结果首字母大写 2.test1="alex&qu ...
- Python入门:数据结构的4种基本类型
数据结构:通俗点说,就是储存大量数据的容器.这里主要介绍Python的4种基本数据结构:列表.字典.元组.集合. 格式如下: 列表:list = [val1,val2,val3,val4],用中括号: ...
- python入门(9)字符串和编码
python入门(9)字符串和编码 字符串是一种数据类型,比较特殊的是字符串有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理. 最早的计算机在设计时采用8个比 ...
- python入门(十):XML和JSON解析
一.python解析XML 1.xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合,注意xml.dom包里面有许多模块,须区分它们间的不同: 2.xml. ...
- Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组
Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组 import time dt=time.strptime('2019-08-08 11:32:23', ...
随机推荐
- 安卓基础干货(六):安卓Activity的学习
AndroidManifest文件中的几个细节 结论: 1.一个应用程序可以创建多个桌面图标 2.创建快捷图标的方法: <intent-filter> //应用程序的入口 <acti ...
- BitmapFactory 读取图片方法总结
①decodeFile(java.lang.String pathName) ②decodeResource(android.content.res.Resources res, int id ...
- idea整个项目乱码解决办法
idea前几天还好好的,这两天一直出现乱码.不止一个文件,是整个项目都有这个问题.想想这几天什么也没做啊... 上网搜了下 解决. 经过多次排查寻找,终于,在项目的目录下有个.idea的文件夹,这个文 ...
- C++异常安全
转自:http://www.cnblogs.com/zgfLawliet/p/3417308.html 异常安全的代码是指,满足两个条件 1异常中立性 : 是指当你的代码(包括你调用的代码)引发异 ...
- 【Oracle】Oracle11g安装和基本的使用-转载
一.测试操作系统和硬件环境是否符合,我使用的是win2008企业版.下面的都是step by step看图就ok了,不再详细解释. 请留意下面的总的设置步骤:--------------------- ...
- 二、docker学习笔记——安装redis
前提:打开powershell(管理员) 1.官网路径 按照官网的做了,但外网无法链接,只好换个做法. 2.docker pull redis 这下载的最新版redis 3.在docker上挂载文件夹 ...
- [翻译] RKCardView
RKCardView Beautiful Twitter / Facebook style cards (built with @JaredTMoskowitz) Follow me on Twitt ...
- Python学习---Python下[set集合]的学习
Set集合[可变]是一个无序的,不重复的数据组合,它的主要作用如下: 1. 去重,把一个列表变成集合,就自动去重了 2. 关系测试,测试两组数据之前的交集.差集.并集等关系 集合(set):把不同的元 ...
- 【转】Java中的多线程你只要看这一篇就够了
https://www.jianshu.com/p/40d4c7aebd66 引 如果对什么是线程.什么是进程仍存有疑惑,请先Google之,因为这两个概念不在本文的范围之内. 用多线程只有一个目的, ...
- 实战开发一个Nginx扩展 (Nginx Module)
repo地址 https://github.com/wujunze/nginx-http-echo-module nginx_module_echo 使用echo指令输出一个字符串 Nginx 版本 ...