对字符串的处理分类:分段,连接,剔除,提取,综合

连接:+,*

+(加法)的使用

a='i'

b=' love'

c=' you'

print(a+b+c)

#return i love you

*(乘法)的使用

a='word'

print(a*3)

#result wodwordword

分段:split()

split():将字符串按标志(默认为空格)分成列表格式

a='www.baidu.com'

print(a.split('.'))

#return ['www','baidu','com']

剔除:strip(),

strip():剔除两侧字符,默认空格,自定义为!结尾。

#默认

a='       python is cool     '

print(a.strip())

#return 'python is cool'

#自定义

a='*********python **is** cool***********'

print(a.strip('*!'))

#return 'python **is** cool'

利用RE模块的正则表达式功能,sub(函数)

import re

phone='123-456-789'

new_phone=re.sub('\D','',phone)

print(new_phone)

#return 123456789

提取:切片和索引

切片和索引

索引:正值和负值

a='123456789'

print(a[0])

#return 1

print(a[-1])

#return 9

切片:包头不包尾(将数字看成角标)

a='123456789'

print(a[0:1])

#return 1

print(a[0:3])

#return 123

综合:替换,  字符串格式化符

替换:replace(),    原值=》替换值

如果有多个原值效果未知

以值查询或位置查询为索引替换

替换is为are

a=''there is apples''

b=a.replace('is','are')

print(b)

#return 'there are apples'

将电话号码中间四位屏蔽

def change_number(number):

  hiding_number=number.replace(number[3:7],'*'*4)

  print(hiding_number)

change_number('13813986643')

#return 138****6643

format():  单词用replace(),长句用format()

#字符串使用

a='{} is my love'.format('python')

print(a)

#return 'python is my love'

#url使用

content=input('输入搜索内容?')

url_path='https://www.abc.com/{}'.format(content)

print(url_path)

#url_path=www.abc.com.content

利用RE模块的正则表达式功能,sub(函数)

import re

phone='123-456-789'

new_phone=re.sub('\D','*',phone)

print(new_phone)

#return 123*456*789

python爬虫之路——对字符串的处理的更多相关文章

  1. Python爬虫之路——简单网页抓图升级版(添加多线程支持)

    转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...

  2. python学习之路06——字符串

    字符串 1.概念 字符串就是由若干个字符组成的有限序列 字符:字母,数字,特殊符号,中文 表示形式:采用的单引号或者双引号 注意:字符串属于不可变实体 2.创建字符串 str1 = "hel ...

  3. 我的Python自学之路-003 字符串的知识

    '''字符串是以引号或者单引号括起来的任意文本,例如"123","asdfjk",'adfa'引号或者单引号,只是一种表示方法,并不是字符串的一部分如果字符串本 ...

  4. python爬虫之路——正则表达式初识

    正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无:   个数:单值     区间      离散 判 ...

  5. python爬虫之路——变量和变量类型

    变量类型: ①单值:int ②多值:数组 ③复杂:类 变量类型:就是变量的数据结构,表示这个变量所代表的内容的格式是怎样的. (多值)四种基本数据结构: 列表,字典,元组,集合 列表: ①元素可变,  ...

  6. Python学习之路3 - 字符串操作&字典

    本节内容: 常用的字符串处理. 格式化输出字符串. 字符串的替换. 字符串和二进制的相互转化. 字典的操作 字符串操作 常用的字符串处理 name = 'vector' print(name.capi ...

  7. python爬虫之路——Python的re模块及其方法

    介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a ...

  8. python爬虫之路——初识爬虫三大库,requests,lxml,beautiful.

    三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...

  9. python爬虫之路——初识爬虫原理

    爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...

随机推荐

  1. 34.Docker安装Mysql参数及环境变量使用

    容器安装好后,通过exec进去到容器的内部, 容器安装的时候两种容器配置参数 直接在镜像的后面加配置 第二种方式 把这段代码拷贝过来.参数我们可以写在镜像的后面 我们把参数写在镜像的后面 然后我们需要 ...

  2. 5. 通过PHP反序列化进行远程代码执行

    php序列化与反序列化 最近准备复现一下ecshop2.x,3.x的注入漏洞,其中涉及到了php反序列化的问题,由于之前太小白 ,导致粗心大意,所以此对php反序列化漏洞进行更详细的分析. 提起php ...

  3. Linux之configure make make install

    正常的编译安装/卸载: 源码的安装一般由3个步骤组成:配置(configure).编译(make).安装(make install).   configure文件是一个可执行的脚本文件,它有很多选项, ...

  4. .net过滤器重写beginrequest

    在J2EE Web开发中有过滤器filter,该filter可以对指定的URL访问进行拦截,并执行过滤器的方法,根据实际应用情况,在过滤器中修改请求的代码.判断会话信息,也可以做权限控制,总之这个过滤 ...

  5. express解决ajax跨域访问session失效问题

    最近在学习express,就用以前做的项目来进行express前后端分离的练手了,在做登陆注册的时候发现跨域的时候,session的值是会失效的,导致session里面的数据获取为undefined, ...

  6. Linux常用命令(补充)-grep

    grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正 ...

  7. IBM WebSphere MQ

    相关链接: http://kakajw.iteye.com/category/269774 http://www.ibm.com/support/knowledgecenter/zh/SSFKSJ_7 ...

  8. Centos7.x 安装 pptp

    VPN 1:检查是否支持PPTP #返回OK && echo ok ok 2:安装ppp yum install -y ppp 3:导入EPEL源 rpm -ivh http://dl ...

  9. 小知识点:linux下的mv命令怎么用?

    linux下的mv命令怎么用? mv a.txt b.txt  将a.txt 改名为b.txtmv a.txt /mnt/b.txt    同时更改路径为/mnt/mv a.txt /opt/ftp/ ...

  10. 题解 P1004 方格取数

    传送门 动态规划Yes? 设i为路径长度,(为什么i这一维可以省掉见下)f[j][k]表示第一个点到了(j,i-j),第二个点到了(k,j-k) 则 int ji=i-j,ki=i-k; f[j][k ...