jQuery源码分析-02正则表达式-RegExp-常用正则表达式

2.4 常用正则表达式
在网上找到一篇广为流传的文章《常用正则表达式》，逐一分析，不足地方进行补充和纠正。

常用的数字正则（严格匹配）

正则            含义

^[1-9]\d*$    匹配正整数

^-[1-9]\d*$    匹配负整数

^-?[1-9]\d*$    匹配整数

^[1-9]\d*|0$    匹配非负整数（正整数 + 0）

^-[1-9]\d*|0$    匹配非正整数（负整数 + 0）

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$    匹配正浮点数

^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$    匹配负浮点数

^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$     匹配浮点数

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$    匹配非负浮点数（正浮点数 + 0）

^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$    匹配非正浮点数（负浮点数 + 0）

常用字符串正则

正则                    含义                      补充

^[A-Za-z]+$    匹配由26个英文字母组成的字符串    或 /^[a-z]+$/i

^[A-Z]+$    匹配由26个英文字母的大写组成的字符串

^[a-z]+$    匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$    匹配由数字和26个英文字母组成的字符串    注意\w包含下划线_

^\w+$    匹配由数字、26个英文字母或者下划线组成的字符串

常用数字正则和常用字符串正则，是最基本的正则应用，读者可以作为入门的练习，试试能不能快速的读懂其中的含义。

匹配中文字符

普遍使用的正则是[\u4e00-\u9fa5]，但这个范围并不完整。例如：

/[\u4e00-\u9fa5]/.test( '⻏' ) // 测试部首⻏，返回false

根据Unicode 5.0版编码，要准确的判断一个中文字符要包括：

范围    含义    范围    含义

2E80-2EFF    CJK 部首补充    2F00-2FDF    康熙字典部首

3000-303F    CJK 符号和标点    31C0-31EF    CJK 笔画

3200-32FF    封闭式 CJK 文字和月份    3300-33FF    CJK 兼容

3400-4DBF    CJK 统一表意符号扩展 A    4DC0-4DFF    易经六十四卦符号

4E00-9FBF    CJK 统一表意符号    F900-FAFF    CJK 兼容象形文字

FE30-FE4F    CJK 兼容形式    FF00-FFEF    全角ASCII、全角标点

因此，正确的匹配中文字符正则表达式为：

var rcjk = /[\u2E80-\u2EFF\u2F00-\u2FDF\u3000-\u303F\u31C0-\u31EF\u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30-\uFE4F\uFF00-\uFFEF]+/g;

如果不希望匹配标点、符号，在正则中去掉对应的范围即可：

3000-303F    CJK 符号和标点    FF00-FFEF    全角ASCII、全角标点

匹配双字节字符(包括汉字在内)

[^\x00-\xff]，可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1），代码示例如下：

console.info( "abc".replace( /[^\x00-\xff]/g,"aa" ).length ) //

console.info( "汉字".replace( /[^\x00-\xff]/g,"aa" ).length ) //

console.info( "abc汉字".replace( /[^\x00-\xff]/g,"aa").length ) //

匹配HTML标记的正则表达式

先说说网上流传的版本：

<(\S*?)[^>]*>.*?</\1>|<.*? />

*?    *表示0个或多个，?表示0个或1个，两个叠加起来标识0个多个，与*的功能重叠

(\S*?)    标签的长度必须大于0，因此不能用*?

|<.*?\/>    没有分组，无法获取以<div/>这种自关闭格式书写的标签

</\1>

<.*? />    有的标签是不关闭的，比如<br><hr>，因此不能强制关闭

修正如下：

var rtag = /^<([a-z]+)\s*\/?>.*(?:<\/\1>)?$/i

rtag.exec( '<-div></-div>') // null

rtag.exec( '<div>abc') // ["<div>abc", "div"]

这个表达式也不完善，比如第二条测试语句，这么写是为了能提取中包含了文本内容的标签，如果要严格匹配，可再次修改为：

var rtag = /^<([a-z]+)\s*\/?> (?:<\/\1>)?$/i // 去掉了中间的.*

这个正则的应用范围仅限于简单的标签匹配、提取，不能匹配嵌套标记。

匹配首尾空白字符的正则表达式

先说说网上流传的版本：

^\s*|\s*$

可以删除行首行尾的空白字符，例如：

'   \t    \n\r   abc   \t    \n\r   '.replace( /^\s*|\s*$/g, '' ) // abc

但是用\s*不能判断出字符串是否在开头或结尾处有\s，例如：

/^\s*|\s*$/.test( 'abc' ) // true

修正如下：

^\s+|\s+$

'   \t    \n\r   abc   \t    \n\r   '.replace( /^\s+|\s+$/g, '' ) // abc

/^\s+|\s+$/.test( 'abc' ) // false

匹配Email地址的正则表达式

先介绍下Email的规则：local-part@domain

    local-part最长64，domain最长253，总长最长256

    local-part可以使用任意ASCII字符：

    大小写英文字母 a-z,A-Z

    数字 0-9

    字符 !#$%&'*+-/=?^_`{|}~

    字符 .不能是第一个和最后一个，不能连续出现两次

    但是有些邮件服务器会拒绝包含有特殊字符的邮件地址

    domain（域名）仅限于26个英文字母、10个数字、连词号-

    连词号-不能是第一个字符

    顶级域名（com、cn等）长度为2到6个

先说说网上流传的版本：

\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

()    莫名奇妙的分组，如果只分组不记录，可以使用(?:)

@\w    domain不能包含下划线_

\w+([-.]\w+)*    顶级域名不符合规则

修正如下：

var remail = /^([\w-_]+(?:\.[\w-_]+)*)@((?:[a-z0-9]+(?:-[a-zA-Z0-9]+)*)+\.[a-z]{2,6})$/i

remail.exec( 'nuysoft@gmail.com' ) // "nuysoft@gmail.com", "nuysoft", "gmail.com"]

remail.exec( 'nuysoft@gmail.comcomcom' ) // null

remail.exec( 'nuysoft@_gmail.com ) // null

修正后的正则有如下局限性：

    不支持中文邮箱、中文域名，之所以不在其中支持是因为我个人的爱好倾向，反感这类华而不实的玩意

    不支持特殊符号，避免非邮件服务器拒绝，如果需要，可以添加。

参考文章：

http://en.wikipedia.org/wiki/Email_address

http://baike.baidu.com/view/119298.htm

匹配网址URL的正则表达式

先说说网上流传的版本：

[a-zA-z]+://[^\s]*

粗糙，没有对URL中各个块进行分组

修正如下（又一段网上流传的版本）：

var _url = "^((https|http|ftp|rtsp|mms)?://)?" //

         + "(([0-9a-z_!~*'().&=+$%-]+: )?[0-9a-z_!~*'().&=+$%-]+@)?" // ftp的user@

         + "(([0-9]{1,3}.){3}[0-9]{1,3}" // IP形式的URL- 199.194.52.184

         + "|" // 允许IP和DOMAIN（域名）

         + "([0-9a-z_!~*'()-]+.)*" // 域名- www.

         + "([0-9a-z][0-9a-z-]{0,61})?[0-9a-z]." // 二级域名

         + "[a-z]{2,6})" // first level domain- .com or .museum

         + "(:[0-9]{1,4})?" // 端口- :80

         + "((/?)|" // a slash isn't required if there is no file name

         + "(/[0-9a-z_!~*'().;?:@&=+$,%#-]+)+/?)$";

var rurl = new RegExp( _url, 'i' );

测试：

rurl.exec( 'baidu.com' ) // ["baidu.com", undefined, undefined, undefined, undefined, "baidu.com", undefined, "baid", undefined, undefined, "", "", undefined]

rurl.exec( 'http://baidu.com' ) //

rurl.exec( 'http://www.baidu.com' ) // ["http://baidu.com", "http://", "http", undefined, undefined, "baidu.com", undefined, "baid", undefined, undefined, "", "", undefined]

rurl.test( 'baidu' ) // true

看来不怎么也好用，有待学习TODO。

匹配帐号是否合法

先说说网上流传的版本：

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

(字母开头，允许5-16字节，允许字母数字下划线)

限制必须以字母开头现在看来不合适，比如QQ登录平台

限制不能以下划线开头也没有必要，比如百度就允许，因此简单点

修正如下：

var ruser = /\w{4,16}/

匹配国内电话号码

网上流传的版本很好用：

\d{3}-\d{8}|\d{4}-\d{7}

评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号

网上流传的版本很好用：

 [1-9][0-9]{4,}

评注：腾讯QQ号从10000开始

匹配中国邮政编码

网上流传的版本很好用：

[1-9]\d{5}(?!\d)

评注：中国邮政编码为6位数字

匹配身份证

先说说网上流传的版本：

\d{15}|\d{18}

d{15}

\d{18}    可以判断，但是有些粗糙

从身份证可以解析出地址、生日、性别等，因此特别说明一下：

    身份证规则

中国的身份证为15位（一代）或18位（二代），区别在于二代证只是在一代证的第七位数字前加了19和在末尾加了一位验证码

    将15位升级为18位，并解析18位号码构成（地址、生日、性别）

代码如下：

function parseID(ID) {

    if ( ID.length == 15 ) {

        // 升级为18位

        ID = ID.substr( 0, 6 ) + "19" + ID.substr( 6 );

        // 前17位对应的系数

        var rank = [

                "7", "9", "10", "5", "8", "4", "2", "1", "6", "3", "7", "9", "10", "5", "8", "4", "2"

        ];

        // 前17为加权除以17后的余数对应的最后一位身份证号码

        var last = [

                "1", "0", "X", "9", "8", "7", "6", "5", "4", "3", "2"

        ];

        // 加权和

        for ( var i = 0, sum = 0, len = ID.length; i < len; i++)

            sum += ID[ i ] * rank[ i ];

        // 加上最后一位

        ID += last[ sum % 11 ];

    }

    if ( ID.length != 18 ) return null;

    var match = rid.exec( ID );

    return match ? {

        ID : ID,

        area : match[ 1 ],

        y : match[ 2 ],

        m : match[ 3 ],

        d : match[ 4 ],

        sex : match[ 5 ] % 2

    } : null;

}

限制：

    这里只是解析出了地址代码，如何将代码转换为实际地址请问度娘。

    返回对象中的sex为1（男）或0（女），并未做转换，如果页面显示需要，可以这样转换：sex ? "男" : "女"

测试：

console.info( parseID( "142327840821047" ) );

console.info( parseID("142327198408210470" ) );

参考资料：

http://baike.baidu.com/view/118340.htm#1

匹配IP地址

先说说网上流传的版本：

\d+\.\d+\.\d+\.\d+

\d    数字没有限制

修正如下：

var rip = /^(?:(?:[01]?\d{1,2}|2[0-4]\d|25[0-5])\.){3}(?:[01]?\d{1,2}|2[0-4]\d|25[0-5])$/;

rip.test( "192.168.1.1" ) // true

rip.test( "0.0.0.0" ) // true

rip.test( "255.255.255.255" ) // true

rip.test( "256.255.255.255" ) // false

进一步增加分组：

var rip2 = /^([01]?\d{1,2}|2[0-4]\d|25[0-5])\.([01]?\d{1,2}|2[0-4]\d|25[0-5])\.([01]?\d{1,2}|2[0-4]\d|25[0-5])\.([01]?\d{1,2}|2[0-4]\d|25[0-5])$/;

rip2.exec( "192.168.1.1" ) // ["192.168.1.1", "192", "168", "1", "1"]

rip2.exec( "0.0.0.0" ) // ["0.0.0.0", "0", "0", "0", "0"]

rip2.exec( "255.255.255.255" ) // ["255.255.255.255", "255", "255", "255", "255"]

rip2.exec( "256.255.255.255" ) // null

摘自：http://nuysoft.iteye.com/blog/1217898

jQuery源码分析-02正则表达式-RegExp-常用正则表达式的更多相关文章

jQuery源码分析系列
声明:本文为原创文章,如需转载,请注明来源并保留原文链接Aaron,谢谢! 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://git ...
[转]jQuery源码分析系列
文章转自:jQuery源码分析系列-Aaron 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAaro ...
jQuery源码分析系列(转载来源Aaron.)
声明:非本文原创文章,转载来源原文链接Aaron. 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAa ...
jQuery源码分析系列——来自Aaron
jQuery源码分析系列——来自Aaron 转载地址:http://www.cnblogs.com/aaronjs/p/3279314.html 版本截止到2013.8.24 jQuery官方发布最新 ...
[转] jQuery源码分析-如何做jQuery源码分析
jQuery源码分析系列(持续更新) jQuery的源码有些晦涩难懂,本文分享一些我看源码的方法,每一个模块我基本按照这样的顺序去学习. 当我读到难度的书或者源码时,会和<如何阅读一本书> ...
jQuery 源码分析 8：回头看jQuery的构造器（jQuery.fn，jQury.prototype，jQuery.fn.init.prototype的分析）
在第一篇jQuery源码分析中,简单分析了jQuery对象的构造过程,里面提到了jQuery.fn.jQuery.prototype.jQuery.fn.init.prototype的关系. 从代码中 ...
jquery源码分析之一前言篇
1.问:jquery源码分析的版本是什么? 答:v3.2.1 2.问:为什么要分析jquery源码? 答:javascript是一切js框架的基础,jquery.es6.vue.angular.rea ...
jQuery源码分析-each函数
本文部分截取自且行且思 jQuery.each方法用于遍历一个数组或对象,并对当前遍历的元素进行处理,在jQuery使用的频率非常大,下面就这个函数做了详细讲解: 复制代码代码 /*! * jQuer ...
jQuery源码分析-01总体架构
1. 总体架构 1.1自调用匿名函数 self-invoking anonymous function 打开jQuery源码,首先你会看到这样的代码结构: (function( window, und ...

随机推荐

using-ef-code-first-with-an-existing-database
http://weblogs.asp.net/scottgu/using-ef-code-first-with-an-existing-database http://weblogs.asp.net/ ...
SharePoint 2010中重置windows 活动目录(AD)域用户密码的WebPart（免费下载）
由于SharePoint 2013推出不久,并非所有的企业都会升级到SharePoint 2013的,毕竟升级不是打打补丁这么简单,更多的企业还是使用Sharepoint 2010版本的,因此本人自行 ...
coreseek 提示 client version is higher than daemon version 解决办法
安装好coreseek,开启了服务之后,通过 sphinx php扩展去请求数据,提示:client version is higher than daemon version (client is ...
ruby AES加密解密
最近和京东合作做一个项目,在接口对接传递参数时,参数需要通过AES加密解密. 本来想到用gem 'aescrypt'处理,但是aescrypt的编码方式用的base64,而京东那边用的是16进制.所以 ...
[转]几种常见SQL分页方式
创建环境: create table pagetest ( id ,) not null, col01 int null, col02 ) null, col03 datetime null ) -- ...
linux2.6.24内核源代码分析（2）——扒一扒网络数据包在链路层的流向路径之一
在2.6.24内核中链路层接收网络数据包出现了两种方法,第一种是传统方法,利用中断来接收网络数据包,适用于低速设备:第二种是New Api(简称NAPI)方法,利用了中断+轮询的方法来接收网络数据包, ...
Tools - Windows
1)文本操作 Ctrl + C / Ctrl + V / Ctrl + X / Ctrl + Z / Ctrl + A:复制/粘贴/剪贴/撤销/全选. 2)窗口左右分屏 Win + 方向键:上(最大化 ...
Web 项目可能会用到的20款优秀的开源工具
开源的应用程序和它们的源代码可以免费获得,因为版权是属于任何进行过修改或者提交代码的人.大多数提供开源软件的公司都可以建立行业标准,因此可以获得有利的竞争优势. 很多的开源应用程序和工具都有很强的替代 ...
python网络编程socket /socketserver
提起网络编程,不同于web编程,它主要是C/S架构,也就是服务器.客户端结构的.对于初学者而言,最需要理解的不是网络的概念,而是python对于网络编程都提供了些什么模块和功能.不同于计算机发展的初级 ...
Scrum 项目1.0 2.0 3.0 4.0 5.0 6.0 7.0
1.确定选题. 应用NABCD模型,分析你们初步选定的项目,充分说明你们选题的理由. 录制为演说视频,上传到视频网站,并把链接发到团队博客上. 截止日期:2016.5.6日晚10点阅读教材第8章,8 ...

jQuery源码分析-02正则表达式-RegExp-常用正则表达式

jQuery源码分析-02正则表达式-RegExp-常用正则表达式的更多相关文章

随机推荐

热门专题