python爬虫之路——对字符串的处理

对字符串的处理分类：分段，连接，剔除，提取，综合

连接：+，*

+（加法）的使用

a='i'

b=' love'

c=' you'

print(a+b+c)

#return i love you

*(乘法)的使用

a='word'

print(a*3)

#result wodwordword

分段：split()

split()：将字符串按标志（默认为空格）分成列表格式

a='www.baidu.com'

print(a.split('.'))

#return ['www','baidu','com']

剔除：strip()，

strip():剔除两侧字符，默认空格，自定义为！结尾。

#默认

a=' python is cool '

print(a.strip())

#return 'python is cool'

#自定义

a='*********python **is** cool***********'

print(a.strip('*!'))

#return 'python **is** cool'

利用RE模块的正则表达式功能，sub（函数）

import re

phone='123-456-789'

new_phone=re.sub('\D','',phone)

print(new_phone)

#return 123456789

提取：切片和索引

切片和索引

索引：正值和负值

a='123456789'

print(a[0])

#return 1

print(a[-1])

#return 9

切片：包头不包尾（将数字看成角标）

a='123456789'

print(a[0:1])

#return 1

print(a[0:3])

#return 123

综合：替换, 字符串格式化符

替换：replace(), 原值=》替换值

如果有多个原值效果未知

以值查询或位置查询为索引替换

替换is为are

a=''there is apples''

b=a.replace('is','are')

print(b)

#return 'there are apples'

将电话号码中间四位屏蔽

def change_number(number):

　　hiding_number=number.replace(number[3:7],'*'*4)

　　print(hiding_number)

change_number('13813986643')

#return 138****6643

format(): 单词用replace(),长句用format()

#字符串使用

a='{} is my love'.format('python')

print(a)

#return 'python is my love'

#url使用

content=input('输入搜索内容?')

url_path='https://www.abc.com/{}'.format(content)

print(url_path)

#url_path=www.abc.com.content

利用RE模块的正则表达式功能，sub（函数）

import re

phone='123-456-789'

new_phone=re.sub('\D','*',phone)

print(new_phone)

#return 123*456*789

python爬虫之路——对字符串的处理的更多相关文章

Python爬虫之路——简单网页抓图升级版（添加多线程支持）
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
python学习之路06——字符串
字符串 1.概念字符串就是由若干个字符组成的有限序列字符:字母,数字,特殊符号,中文表示形式:采用的单引号或者双引号注意:字符串属于不可变实体 2.创建字符串 str1 = "hel ...
我的Python自学之路-003 字符串的知识
'''字符串是以引号或者单引号括起来的任意文本,例如"123","asdfjk",'adfa'引号或者单引号,只是一种表示方法,并不是字符串的一部分如果字符串本 ...
python爬虫之路——正则表达式初识
正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无: 个数:单值区间离散判 ...
python爬虫之路——变量和变量类型
变量类型: ①单值:int ②多值:数组 ③复杂:类变量类型:就是变量的数据结构,表示这个变量所代表的内容的格式是怎样的. (多值)四种基本数据结构: 列表,字典,元组,集合列表: ①元素可变, ...
Python学习之路3 - 字符串操作&字典
本节内容: 常用的字符串处理. 格式化输出字符串. 字符串的替换. 字符串和二进制的相互转化. 字典的操作字符串操作常用的字符串处理 name = 'vector' print(name.capi ...
python爬虫之路——Python的re模块及其方法
介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a ...
python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...
python爬虫之路——初识爬虫原理
爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...

随机推荐

《Java多线程编程核心技术》读后感（十五）
线程的状态线程对象在不同的运行时期有不同的状态,状态信息就存在与State枚举类中. 验证New,Runnable,Terminated new:线程实例化后还从未执行start()方法时的状态 r ...
day1 java基础回顾-泛型
2.泛型(Generic) 当集合中存储的对象类型不同时,那么会导致程序在运行的时候的转型异常 1 import java.util.ArrayList; 2 import java.util.Ite ...
项目debug1
QuestionController代码如下: @RequestMapping(value = "/question/{qid}", method = {RequestMethod ...
webbrowser 控件实现WinForm与WebForm交互
WebBrowser 控件可以让你装载Windows Form 应用程序中的 Web 网页和其它采用浏览器的文件.可以使用webbrowser 控件将现有的web框架控制项加入至 Windows Fo ...
DropDownlist数据SelectedIndexChanged触发问题解决
1.设置DropDownlist的AutoPostBack为True 2.绑定DropDownlist数据时出现了重复项, 在载入数据时保存数据状态应该写在Load事件中的if (!IsPostBac ...
教妹学 Java：晦涩难懂的泛型
00.故事的起源 “二哥,要不我上大学的时候也学习编程吧?”有一天,三妹突发奇想地问我. “你确定要做一名程序媛吗?” “我觉得女生做程序员,有着天大的优势,尤其是我这种长相甜美的.”三妹开始认真了起 ...
> 软件编程 > 安卓开发 > Unity编译时找不到AndroidSDK的问题：Unable to list target pla
http://www.qingpingshan.com/rjbc/az/228769.html 现象在用 Unity 编译 Android 平台的应用时,遇到 Unable to list targ ...
DataGridView DataSource INotifyPropertyChanged 避免闪烁的方法
代码说话: dgvPosition就是需要避免闪烁的DataGridView 主要是加2段代码 1.SetStyle 2.datagridview设置DoubleBuffered属性为True pub ...
uoj#279. 【UTR #2】题目交流通道（容斥+数数）
传送门先考虑无解的情况,为以下几种:\(dis_{i,j}+dis_{j,k}<dis_{i,k}\),\(dis_{i,i}\neq 0\),\(dis_{i,j}\neq dis_{j,i ...
10.Python初窥门径(函数进阶)
Python(函数进阶) 一.函数的传参(接上期) 形参角度(一共四种,后两种) 动态参数(万能参数)* # 定义一个函数时,*所有的位置参数聚合到一个元组中 def func(*args): # * ...

python爬虫之路——对字符串的处理

python爬虫之路——对字符串的处理的更多相关文章

随机推荐

热门专题