ECMAScript 3 开始支持正则表达式,其语法和 Perl 语法很类似,一个完整的正则表达式结构如下:

var expression = / pattern / flags ;

其中,模式(pattern)部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。

每个正则表达式都可带有一或多个标志(flags),用以标明正则表达式的行为,正则表达式支持下列 3 个标志:

g: 表示全局(global)模式,即模式将被应用于所有字符串,而非在发现第一个匹配项时立即停止;

i : 表示不区分大小写(case-insensitive)模式,即在确定匹配项时忽略模式与字符串的大小写;

m:表示多行(multiline)模式,即在到达一行文本末尾时还会继续查找下一行中是否存在与模式匹配的项。

如果多个标志同时使用时,则写成:gmi 。

正则表达式的创建有两种方式: new RegExp(expression) 和 直接字面量。

// 使用直接字面量创建
var exp1 = /(^\s+)|(\s+$)/g;
// 使用RegExp对象创建
var exp2 = new RegExp('(^\\s+)|(\\s+$)', 'g');

exp1 和 exp2 是两个完全等价的正则表达式,需要注意的是,传递给 RegExp 构造函数的两个参数都是字符串,不能把正则表达式字面量传递给 RegExp 构造函数。

与其他语言中的正则表达式类似,模式中使用的所有元字符都必须转义。正则表达式中的元字符包括:

( [ { \ ^ $ | ) ? * + .] }

这些元字符在正则表达式中都有一或多种特殊用途,因此如果想要匹配字符串中包含的这些字符,就必须对它们进行转义。

// 匹配 .docx
var exp = /\.docx/gi ;

由于 RegExp 构造函数的模式参数是字符串,所以在某些情况下要对字符进行双重转义。所有元字符都必须双重转义,那些已经转义过的字符也是如此。

// 对 \. 再次转义
var exp = new RegExp('\\.docx', 'gi'); //匹配 \n
var exp1 = /\\n/g; //对\n中的\转义
var exp2 = new RegExp('\\\\n', 'g'); // 对 \\n 再次转义

()  []  {} 的区别

() 的作用是提取匹配的字符串。表达式中有几个()就会得到几个相应的匹配字符串。比如 (\s+) 表示连续空格的字符串。

[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字。

{} 一般用来表示匹配的长度,比如 \d{3} 表示匹配三个数字,\d{1,3} 表示匹配1~3个数字,\d{3,} 表示匹配3个以上数字。

^ 与 $

^ 匹配一个字符串的开头,比如 (^a) 就是匹配以字母a开头的字符串

$ 匹配一个字符串的结尾,比如 (b$) 就是匹配以字母b结尾的字符串

^ 还有另个一个作用就是取反,比如[^xyz] 表示匹配的字符串不包含xyz

注意问题:

如果 ^ 出现在[ ] 中一般表示取反,而出现在其他地方则是匹配字符串的开头。

^ 和 $ 配合可以有效匹配完整字符串:

/d+/.test('4xpt');  // true - 部分匹配成功
/^\d+$/.test('4xpt'); // false - 完整匹配失败

\d  \s  \w  .

\d 匹配一个非负整数, 等价于 [0-9]

\s 匹配一个空白字符

\w 匹配一个英文字母或数字,等价于[0-9a-zA-Z]

.   匹配除换行符以外的任意字符,等价于[^\n]

* + ?

* 表示匹配前面元素0次或多次,比如 (\s*) 就是匹配0个或多个空格

+ 表示匹配前面元素1次或多次,比如 (\d+) 就是匹配由至少1个整数组成的字符串

? 表示匹配前面元素0次或1次,相当于{0,1} ,比如(\w?) 就是匹配最多由1个字母或数字组成的字符串

$1 与 \1 

$1-$9 存放着正则表达式中最近的9个正则表达式的提取的结果,这些结果按照子匹配的出现顺序依次排列。基本语法是:RegExp.$n ,这些属性是静态的,除了replace中的第二个参数可以省略 RegExp 之外,其他地方使用都要加上 RegExp 。

//使用RegExp访问
/(\d+)-(\d+)-(\d+)/.test('2016-03-26') RegExp.$1 // 2016
RegExp.$2 // 03
RegExp.$3 // 26 //在replace中使用
'2016-03-26'.replace(/(\d+)-(\d+)-(\d+)/, '$1年$2月$3日')
// 2016年03月26日

\1 表示后向引用,是指在正则表达式中,从左往右数,第1个()中的内容,以此类推,\2表示第2个(),\0表示整个表达式。

//匹配日期格式,表达式中的\1代表重复(\-|\/|.)
var rgx = /\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}/ rgx.test('2016-03-26') // true rgx.test('2016-03.26') // false

两者的区别是:\n 只能用在表达式中,而 $n 只能用在表达式之外的地方。 

test 与 match

前面的大都是JS正则表达式的语法,而test则是用来检测字符串是否匹配某一个正则表达式,如果匹配就会返回true,反之则返回false

/\d+/.test('123') ; // true

/\d+/.test('abc') ; // false

match是获取正则匹配到的结果,以数组的形式返回

'186a619b28'.match(/\d+/g); // ['186', '619', '28'] 

replace

replace 本身是JavaScript字符串对象的一个方法,它允许接收两个参数:

replace([RegExp|String], [String|Function])

参数1:可以是一个普通的字符串或是一个正则表达式

参数2:可以是一个普通的字符串或是一个回调函数

如果第1个参数是 RegExp,JS会先提取RegExp匹配出的结果,然后用第2个参数逐一替换匹配出的结果

如果第2个参数是回调函数,每匹配到一个结果就回调一次,每次回调都会传递以下参数:

result: 本次匹配到的结果

$1,...$9: 正则表达式中有几个(),就会传递几个参数,$1~$9分别代表本次匹配中每个()提取的结果,最多9个

offset: 记录本次匹配的开始位置

source: 接受匹配的原始字符串

经典案例

【1】实现字符串的 trim 函数,去除字符串两边的空格。

String.prototype.trim = function () {

    // 方式一:将匹配到的每一个结果都用''替换
return this.replace(/(^\s+)|(\s+$)/g, function(){
return '';
}); // 方式二:和方式一的原理相同
return this.replace(/(^\s+)|(\s+$)/g, '');
};

^\s+ 表示以空格开头的连续空白字符,\s+$ 表示以空格结尾的连续空白字符,加上() 就是将匹配到的结果提取出来,由于是 | 的关系,因此这个表达式最多会match到两个结果集,然后执行两次替换:

String.prototype.trim = function () {
/**
* @param rs:匹配结果
* @param $1:第1个()提取结果
* @param $2:第2个()提取结果
* @param offset:匹配开始位置
* @param source:原始字符串
*/
this.replace(/(^\s+)|(\s+$)/g, function(rs, $1, $2, offset, source){
// arguments中的每个元素对应一个参数
console.log(arguments);
});
}; ' abcd '.trim(); 输出结果: [' ', ' ', undefined, 0, ' abcd '] // 第1次匹配结果
[' ', undefined, ' ', 5, ' abcd '] // 第2次匹配结果

【2】提取浏览器 url 中的参数名和参数值,生成一个key/value 的对象。

function getUrlParamObj(){
var obj = {};
//获取url的参数部分
var params = window.location.search.substr(1);
//[^&=]+ 表示不含&或=的连续字符,加上()就是提取对应字符串
params.replace(/([^&=]+)=([^&=]*)/gi, function(rs, $1, $2){
obj[$1] = decodeURIComponent($2);
}); return obj;
}

/([^&=]+)=([^&=]*)/gi 每次匹配到的都是一个完整key/value,形如 xxxx=xxx, 每当匹配到一个这样的结果时就执行回调,并传递匹配到的 key 和 value,对应到$1和$2 。

【3】扩展 typeof,包含引用类型的具体类型。

function getDataType(obj){
let rst = Object.prototype.toString.call(obj);
rst = rst.replace(/\[object\s(\w+)\]/,'$1'); // [object Xxx]
return rst.toLowerCase()
} getDataType(1); // number
getDataType('a'); // string
getDataType(null); // null
getDataType([]); // array

$1 是正则表达式中第一个() 中匹配的内容。

注意问题:

replace 的第二个参数只能是字符串或函数,这里的 $1 需要放在引号中。

【4】在字符串指定位置插入新字符串。

String.prototype.insetAt = function(str, offset){

    offset = offset + 1;
//使用RegExp()构造函数创建正则表达式
var regx = new RegExp("(^.{"+offset+"})"); return this.replace(regx, '$1' + str);
}; 'abcd'.insetAt('xyz',2); // 在c字符后插入xyz
> 'abcxyzd'

当 offset=2 时,正则表达式为:(^.{3})  .表示除\n之外的任意字符,{3} 表示匹配前三个连续字符,加()就会将匹配到的结果提取出来,然后通过replace将匹配到的结果替换为新的字符串,形如:结果=结果+str

【5】将手机号 12988886666 转化成 129****6666 。

function telFormat(tel){

    tel = String(tel);

    // 方式一
return tel.replace(/(\d{3})(\d{4})(\d{4})/, function (rs, $1, $2, $3) {
return $1 + '****' + $3
}); // 方式二
return tel.replace(/(\d{3})(\d{4})(\d{4})/, '$1****$3');
}

(\d{3}\d{4}\d{4}) 可以匹配完整的手机号,并分别提取前 3 位、4-7 位和 8-11位,"$1****$3" 是将第 2 个匹配结果用****代替并组成新的字符串,然后替换完整的手机号。

【6】实现HTML编码,将< / > " & ` 等字符进行转义,避免 XSS 攻击 。

function htmlEncode(str) {
//匹配< / > " & `
return str.replace(/[<>"&\/`]/g, function(rs) {
switch (rs) {
case "<":
return "<";
case ">":
return ">";
case "&":
return "&";
case "\"":
return """;
case "/":
return "/"
case "`":
return "'"
}
});
}

原创发布 @一像素  2016.02  

JavaScript正则表达式基础的更多相关文章

  1. JavaScript 正则表达式基础语法

    前言 正则表达式在人们的印象中可能是一堆无法理解的字符,但就是这些符号却实现了字符串的高效操作.通常的情况是,问题本身并不复杂,但没有正则表达式就成了大问题.javascript中的正则表达式作为相当 ...

  2. javascript 正则表达式基础知识汇总

    正则表达式:对字符串中的信息实现查找.替换和提取操作.(不支持注释和空白,必须写在一行内)正则表达式的创建:包含在一对斜杠之间的字符(直接量语法)例如:var pattern = /s$/;     ...

  3. JavaScript正则表达式基础知识汇总

    一.创建正则对象: 1.构造函数RegExp创建正则对象 var pattern = new RegExp('s$'); //pattern匹配以s结尾的字符串 2.使用正则直接量 var patte ...

  4. javascript之正则表达式基础知识小结

    javascript之正则表达式基础知识小结,对于学习正则表达式的朋友是个不错的基础入门资料.   元字符 ^ $ . * + ? = ! : | \ / ( ) [ ] { } 在使用这些符号时需要 ...

  5. JavaScript RegExp 正则表达式基础详谈

    前言: 正则对于一个码农来说是最基础的了,而且在博客园中,发表关于讲解正则表达式的技术文章,更是数不胜数,各有各的优点,但是就是这种很基础的东西,如果我们不去真正仔细研究.学习.掌握,而是抱着需要的时 ...

  6. JS获取url中query_str JavaScript RegExp 正则表达式基础详谈

    面我们举例一个URL,然后获得它的各个组成部分:http://i.cnblogs.com/EditPosts.aspx?opt=1 1.window.location.href(设置或获取整个 URL ...

  7. JavaScript正则表达式,你真的知道?

    一.前言 粗浅的编写正则表达式,是造成性能瓶颈的主要原因.如下: var reg1 = /(A+A+)+B/; var reg2 = /AA+B/; 上述两个正则表达式,匹配效果是一样的,但是,效率就 ...

  8. 理清JavaScript正则表达式--上篇

    在JavaScript中,正则表达式由RegExp对象表示.RegExp对象呢,又可以通过直接量和构造函数RegExp两种方式创建,分别如下: //直接量 var re = /pattern/[g | ...

  9. JavaScript RegExp 基础详谈

    前言: 正则对于一个码农来说是最基础的了,而且在博客园中,发表关于讲解正则表达式的技术文章,更是数不胜数,各有各的优点,但是就是这种很基础的东西,如果我们不去真正仔细研究.学习.掌握,而是抱着需要的时 ...

随机推荐

  1. .NET Orm 性能测试

    .NET Orm 性能测试 简介 OrmBenchmark 这个项目主要是为了测试主要的Orm对于 SqlServer 数据库的查询并将数据转换成所需 POCO 对象的耗时情况(好吧,实际上不完全or ...

  2. app的安装与卸载测试点

    安装 1)软件在不同操作系统(Palm OS.Symbian.Linux.Android.iOS.Black Berry OS .Windows Phone )下安装是否正常. 2)软件安装后的是否能 ...

  3. MySQL数据库简识

    MySQL:关系型数据库      (由瑞典MySQL AB公司开发,后来被Sun公司收购,Sun公司后来又被Oracle公司收购,目前属于Oracle旗下产品)         开源 免费 不要钱 ...

  4. stack的empty()

    public static void main(String[] args) { Stack stack=null; System.out.println("1."+stack.e ...

  5. redis结合自定义注解实现基于方法的注解缓存,及托底缓存的实现

    本次分享如何使用redis结合自定义注解实现基于方法的注解缓存,及托底缓存的实现思路    现在的互联网公司大多数都是以Redis作为缓存,使用缓存的优点就不赘述了,写这篇文章的目的就是想帮助同学们如 ...

  6. BZOJ_3398_[Usaco2009 Feb]Bullcow 牡牛和牝牛_组合数学

    BZOJ_3398_[Usaco2009 Feb]Bullcow 牡牛和牝牛_组合数学 Description     约翰要带N(1≤N≤100000)只牛去参加集会里的展示活动,这些牛可以是牡牛, ...

  7. 使用Onenote & Evernote & VSC+Markdown构建个人笔记系统

    Onenote & Evernote & VSC+Markdown构建个人笔记系统 umeowbing(转载请注明出处) 1 Why 笔记本太多,全部带着太重,查找起来也很麻烦-- 笔 ...

  8. node.js与ThreadLocal

    ThreadLocal变量的说法来自于Java,这是在多线程模型下出现并发问题的一种解决方案. ThreadLocal变量作为线程内的局部变量,在多线程下可以保持独立,它存在于 线程的生命周期内,可以 ...

  9. RabbitMQ和Kafka到底怎么选(二)?

    前言 前一篇文章<RabbitMQ和Kafka到底怎么选?>,我们在吞吐量方面比较了Kafka和RabbitMQ,知道了Kafka的吞吐量要高于RabbitMQ.本文从可靠性方面继续探讨两 ...

  10. Haskell学习-functor

    原文地址:Haskell学习-functor 什么是Functor functor 就是可以执行map操作的对象,functor就像是附加了语义的表达式,可以用盒子进行比喻.functor 的定义可以 ...