NLP（四）正则表达式

原文链接：http://www.one2know.cn/nlp4/

* + ?

* ：0个或多个

+ ：1个或多个

? ：0个或1个

re.search()函数，将str和re匹配，匹配正确返回True

import re

# 匹配函数，输入：文本，匹配模式（即re）

def text_match(text,patterns):

    if re.search(patterns,text):

        return 'Found a match!'

    else:

        return 'Not matched!'

# 测试

print(text_match('ac','ab?'))

print(text_match('abc','ab?'))

print(text_match('abbc','ab?'))

print(text_match('ac','ab*'))

print(text_match('abc','ab*'))

print(text_match('abbc','ab*'))

print(text_match('ac','ab+'))

print(text_match('abc','ab+'))

print(text_match('abbc','ab+'))

print(text_match('abbc','ab{2}'))

print(text_match('aabbbbc','ab{3,5}?'))

输出：

Found a match!

Found a match!

Found a match!

Found a match!

Found a match!

Found a match!

Not matched!

Found a match!

Found a match!

Found a match!

Found a match!

$ ^ .

$ ：结尾

^ ：开头

. ：除换行符以外的任何字符

\w ：字母，数字，下划线

\s ：空格符

\S ：非空格符

\b ：空格

\B ：非空格

import re

def text_match(text,patterns):

    if re.search(patterns,text):

        return 'Found a match!'

    else:

        return 'Not matched!'

# 任意以a开头，以c结尾

print(text_match('abbc','^a.*c$'))

# 以文本开始，后面有出现一次或多次的文本

print(text_match('Tuffy eats pie, Loki eats peas!','^\w+'))

# 文末一个或多个\w加上0个或多个非空字符，\S在\w后面表示标点符号

print(text_match('Tuffy eats pie, Loki eats peas!','\w+\S*$'))

# 含u在中间的单词

print(text_match('Tuffy eats pie, Loki eats peas!','\Bu\B'))

输出：

Found a match!

Found a match!

Found a match!

Found a match!

字符串匹配

re.search(pattern,text) ：判断text里是否有pattern

re.finditer(pattern,text) ：在text里找到pattern

import re

patterns = ['Tuffy','Pie','Loki']

text = 'Tuffy eats pie, Loki eats peas!'

# 匹配字符串

for pattern in patterns:

    print('Searching for "%s" in "%s" -&gt;' % (pattern,text))

    if re.search(pattern,text):

    # 如果不想区分大小写，加参数 flags=re.IGHORECASE

        print('Found!')

    else:

        print('Not Found!')

# 匹配字符串，并找到他的位置

pattern = 'eats'

for match in re.finditer(pattern,text):

    s = match.start()

    e = match.end()

    print('Found "%s" at %d:%d'%(text[s:e],s,e))

输出：

Searching for "Tuffy" in "Tuffy eats pie, Loki eats peas!" -&gt;

Found!

Searching for "Pie" in "Tuffy eats pie, Loki eats peas!" -&gt;

Not Found!

Searching for "Loki" in "Tuffy eats pie, Loki eats peas!" -&gt;

Found!

Found "eats" at 6:10

Found "eats" at 21:25

日期，一组字符集合(或字符范围)

\d ：数字

re.compile() ：string => RegexObject的对象

方括号[]内的所有内容都是OR关系

import re

url = 'http://www.awdawd.com/da/wda/2019/7/2/wda.html'

# YYYY/MM/DD

date_regex = '/(\d{4})/(\d{1,2})/(\d{1,2})'

print('Data found in the URL :',re.findall(date_regex,url))

# 有特殊字符返回Flase

def is_allowed_specific_char(string):

    charRe = re.compile(r'[^a-zA-Z0-9.]')

    string = charRe.search(string)

    return not bool(string)

print(is_allowed_specific_char('adIDHihdHDIh.'))

print(is_allowed_specific_char('*#$%^&!{}'))

输出：

Data found in the URL : [('2019', '7', '2')]

True

False

找到所有长度为5的单词，缩写替换单词

import re

# 用缩写替换

street = '21 Ramkrishna Road'

print(re.sub('Road','Rd',street))

# 找到长度为5的单词

text = 'Tuffy eats pie, Loki eats bread!'

print(re.findall(r'\b\w{5}\b',text))

输出：

21 Ramkrishna Rd

['Tuffy', 'bread']

基于RE的分词器

import re

raw = 'I am big!  It\'s the pictures that got small.'

# 用一个或多个空格分词

print(re.split(r' +',raw))

# 非 字母数字下划线 分词

print(re.split(r'\W+',raw))

# 匹配分词 ！

print(re.findall(r'\w+|\S\w*',raw))

输出：

['I', 'am', 'big!', "It's", 'the', 'pictures', 'that', 'got', 'small.']

['I', 'am', 'big', 'It', 's', 'the', 'pictures', 'that', 'got', 'small', '']

['I', 'am', 'big', '!', 'It', "'s", 'the', 'pictures', 'that', 'got', 'small', '.']

基于RE的词干提取器

import re

# 自己的词干提取器

def stem(word):

    split = re.findall(r'^(.*?)(ing|ly|ed|ies|ive|es|s|ment)?$',word)

    stem = split[0][0]

    return stem

# 上节中re分词

raw = 'Keep your friends close, but your enemies closer.'

tokens = re.findall(r'\w+|\S\w*',raw)

print(tokens)

# 测试

for t in tokens:

    print("'",stem(t),"'")

输出：

['Keep', 'your', 'friends', 'close', ',', 'but', 'your', 'enemies', 'closer', '.']

' Keep ' ' your ' ' friend ' ' close ' ' , ' ' but ' ' your ' ' enem ' ' closer ' ' . '

NLP（四）正则表达式的更多相关文章

spring cloud: zuul(四): 正则表达式匹配其他微服务(给其他微服务加版本号)
spring cloud: zuul(四): 正则表达式匹配其他微服务(给其他微服务加版本号) 比如我原来有,spring-boot-user微服务,后台进行迭代更新,另外其了一个微服务: sprin ...
最新自然语言处理(NLP)四步流程：Embed->Encode->Attend->Predict
http://blog.csdn.net/jdbc/article/details/53292414 过去半年以来,自然语言处理领域进化出了一件神器.此神器乃是深度神经网络的一种新模式,该模式分为:e ...
js备战春招の四の正则表达式详解
正则表达式语法规则:/正则表达式主体/修饰符(可选)什么是正则表达式:正则表达式是用于匹配字符串中字符组合的模式.在 JavaScript中,正则表达式也是对象.这些模式被用于 RegExp 的 ex ...
Mysql(四)正则表达式
一.正则表达式 1.使用like可以进行不确定的查询(模糊查询),然而,模糊查询的功能有限,当需要进行更加复杂的模式匹配时,可以使用正则表达式来完成. 2.正则表达式可以对指定的字符串与模式之间执 ...
python学习(十四)正则表达式
原文链接 ## 什么是正则表达式`正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑 ...
PYTHON 爬虫笔记四:正则表达式基础用法
知识点一:正则表达式详解及其基本使用方法什么是正则表达式正则表达式对子符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达 ...
python 基础(十四) 正则表达式
正则表达式概念: 正则匹配就是一个模糊的匹配只要符合我的匹配规则就会认为是正确的数据(精确的匹配) 1.[] #代表原子表把想要匹配的内容写入原子表中匹配包含的任意一位字符 [a] ...
Python学习日记(十四) 正则表达式和re模块
正则表达式: 它是字符串的一种匹配模式,用来处理字符串,可以极大地减轻处理一些复杂字符串的代码量字符组:它是在同一位置可能出现的各种字符组成了一个字符组,用[]表示,但是它的结果只能是一个数字或者一 ...
Js笔试题之正则表达式
一.复习字符串的传统操作如何获取一个字符串中的数字字符,并按数组形式输出,如 dgfhfgh254bhku289fgdhdy675gfh 输出[254,289,675] 分析:循环用charAt() ...
pl/sql学习(6): 引号/程序调试/列中的字符串合并/正则表达式
有关自治事务的问题: https://www.cnblogs.com/princessd8251/p/4132649.html 我在plsql development学习中遇到的常见问题: (一) 引 ...

随机推荐

虚拟机ip地址从ipv6改为ipv4相关问题
有一次打开虚拟机时,Xshell连接不上虚拟机,就很奇怪,然后查看虚拟机的ip地址,发现显示为ipv6格式,然后总结了两种情况如下: 第一种情况: onboot为no时显示ipv6地址, 改为yes即 ...
Java代码计算运行时间
突然想准确的测试一下Java代码的执行时间,在网上找了一会.发现基本有以下两种方法:第一种是以毫秒为单位计算的. Java代码 //伪代码 long startTime=System.currentT ...
macOS 安装配置yaf框架生成yaf项目
macOS 安装配置yaf框架 Yaf只支持PHP5.2及以上的版本. 并支持最新的PHP5.3.3 Yaf需要SPL的支持. SPL在PHP5中是默认启用的扩展模块 Yaf需要PCRE的支持. PC ...
Unity经典游戏教程之：弓之骑士
版权声明: 本文原创发布于博客园"优梦创客"的博客空间(网址:http://www.cnblogs.com/raymondking123/)以及微信公众号"优梦创客&qu ...
Hadoop学习(7)-hive的安装和命令行使用和java操作
Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作. 而那些表的定义 ...
UEM“探针”技术及用户体验管理
随着互联网产品越来越多,用户群体越来越庞大以及用户品位的多样性增加,我们会发现这样的一个规律,就是相同类型的产品,比如播放器中的QQ影音和暴风影音,再比如小游戏平台中的腾讯游戏和联众等等,他们的功能是 ...
js 数组对象深拷贝
js 数组对象深拷贝结论:对象的拷贝不能采用直接赋值的方式. 背景踩过的坑如下: formData本来是父组件传过来的,但是我不想直接用,于是我直接赋值给一个formDataCopy的对象. 但是 ...
Spring入门(六)：条件化的bean
1. 概念默认情况下,Spring中定义的bean在应用程序启动时会全部装配,不管当前运行的是哪个环境(Dev,QA或者Prod),也不管当前运行的是什么系统(Windows或者Linux),但有些 ...
从源码看Flask框架配置管理
1 引言 Flask作为Python语言web开发的三大顶梁柱框架之一,对于配置的管理当然必不可少.一个应用从开发到测试到最后的产品发布,往往都需要多种不同的配置,例如是否开启调试模式.使用哪个数据库 ...
windows环境composer install失败的解决办法
报错信息:[Composer\Downloader\TransportException] The "https://repo.packagist.org/p/doctrine/inflec ...

NLP（四） 正则表达式

NLP（四） 正则表达式的更多相关文章

随机推荐

热门专题

NLP（四）正则表达式

NLP（四）正则表达式的更多相关文章