一些实用的正则表达式

操作方法

  • 01

    正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番。我将一些常用的表达式收藏在这里,作备忘之用。本贴随时会更新。 匹配中文字符的正则表达式: [\u4e00-\u9fa5]匹配双字节字符(包括汉字在内): [^\x00-\xff]应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) String.prototype.len=function(){ return this.replace([^\x00-\xff]/g,"aa").length; }匹配空行的正则表达式: \n[\s|]*\r匹配HTML标记的正则表达式: /<(.*)>.*<\/\1>|<(.*) \/>/匹配首尾空格的正则表达式: (^\s*)|(\s*$)应用:j avascript中没有像v bscript那样的trim函数,我们就可以利用这个表达式来实现,如下: String.prototype.trim = function(){ return this.replace(/(^\s*)|(\s*$)/g, "");}利用正则表达式分解和转换IP地址下面是利用正则表达式匹配IP地址,并将IP地址转换成对应数值的Javascript程序: function IP2V(ip){ re=/(\d+)\.(\d+)\.(\d+)\.(\d+)/g  //匹配IP地址的正则表达式 if(re.test(ip)) { return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1 } else { throw new Error("Not a valid IP address!") }}不过上面的程序如果不用正则表达式,而直接用split函数来分解可能更简单,程序如下: var ip="10.100.20.168"ip=ip.split(".")alert("IP值是:"+(ip[0]*255*255*255+ip[1]*255*255+ip[2]*255+ip[3]*1))匹配Email地址的正则表达式: \w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*匹配网址URL的正则表达式: http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?利用正则表达式去除字串中重复的字符的算法程序:[*注:此程序不正确] var s="abacabefgeeii"var s1=s.replace(/(.).*\1/g,"$1")var re=new RegExp("["+s1+"]","g")var s2=s.replace(re,"")alert(s1+s2)  //结果为:abcefgi*注===============================如果var s = “abacabefggeeii”结果就不对了,结果为:abeicfgg正则表达式的能力有限=============================== 我原来在CSDN上发贴寻求一个表达式来实现去除重复字符的方法,最终没有找到,这是我能想到的最简单的实现方法。思路是使用后向引用取出包括重复的字符,再以重复的字符建立第二个表达式,取到不重复的字符,两者串连。这个方法对于字符顺序有要求的字符串可能不适用。 得用正则表达式从URL地址中提取文件名的javascript程序,如下结果为page1 s="http://blog.penner.cn/page1.htm"s=s.replace(/(.*\/){ 0, }([^\.]+).*/ig,"$2")alert(s)利用正则表达式限制网页表单里的文本框输入内容: 用正则表达式限制只能输入中文: onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\u4E00-\u9FA5]/g,''))"用正则表达式限制只能输入全角字符: onkeyup="value=value.replace(/[^\uFF00-\uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\uFF00-\uFFFF]/g,''))"用正则表达式限制只能输入数字: onkeyup="value=value.replace(/[^\d]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"用正则表达式限制只能输入数字和英文: onkeyup="value=value.replace(/[\W]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\d]/g,''))"匹配非负整数(正整数 + 0) ^\d+$匹配正整数 ^[0-9]*[1-9][0-9]*$匹配非正整数(负整数 + 0) ^((-\d+)|(0+))$匹配负整数 ^-[0-9]*[1-9][0-9]*$匹配整数 ^-?\d+$匹配非负浮点数(正浮点数 + 0) ^\d+(\.\d+)?$匹配正浮点数 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$匹配非正浮点数(负浮点数 + 0) ^((-\d+(\.\d+)?)|(0+(\.0+)?))$匹配负浮点数 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$匹配浮点数 ^(-?\d+)(\.\d+)?$匹配由26个英文字母组成的字符串 ^[A-Za-z]+$匹配由26个英文字母的大写组成的字符串 ^[A-Z]+$匹配由26个英文字母的小写组成的字符串 ^[a-z]+$匹配由数字和26个英文字母组成的字符串 ^[A-Za-z0-9]+$匹配由数字、26个英文字母或者下划线组成的字符串 ^\w+$匹配email地址 ^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$匹配url ^[a-zA-z]+://匹配(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$匹配html tag <\s*(\S+)(\s[^>]*)?>(.*?)<\s*\/\1\s*>Visual Basic & C# Regular Expression1.确认有效电子邮件格式下面的示例使用静态 Regex.IsMatch 方法验证一个字符串是否为有效电子邮件格式。如果字符串包含一个有效的电子邮件地址,则 IsValidEmail 方法返回 true,否则返回 false,但不采取其他任何操作。您可以使用 IsValidEmail,在应用程序将地址存储在数据库中或显示在 ASP.NET 页中之前,筛选出包含无效字符的电子邮件地址。 [Visual Basic] Function IsValidEmail(strIn As String) As Boolean' Return true if strIn is in valid e-mail format.Return Regex.IsMatch(strIn, ("^([\w-\.]+)@((\[[0-9]{ 1,3 }\.[0-9]{ 1,3 }\.[0-9]{ 1,3 }\.)|(([\w-]+\.)+))([a-zA-Z]{ 2,4 }|[0-9]{ 1,3 })(\]?)$")End Function[C#] bool IsValidEmail(string strIn){// Return true if strIn is in valid e-mail format.return Regex.IsMatch(strIn, @"^([\w-\.]+)@((\[[0-9]{ 1,3 }\.[0-9]{ 1,3 }\.[0-9]{ 1,3 }\.)|(([\w-]+\.)+))([a-zA-Z]{ 2,4 }|[0-9]{ 1,3 })(\]?)$");}2.清理输入字符串下面的代码示例使用静态 Regex.Replace 方法从字符串中抽出无效字符。您可以使用这里定义的 CleanInput 方法,清除掉在接受用户输入的窗体的文本字段中输入的可能有害的字符。CleanInput 在清除掉除 @、-(连字符)和 .(句点)以外的所有非字母数字字符后返回一个字符串。 [Visual Basic] Function CleanInput(strIn As String) As String' Replace invalid characters with empty strings.Return Regex.Replace(strIn, "[^\w\.@-]", "")End Function[C#] String CleanInput(string strIn){ // Replace invalid characters with empty strings. return Regex.Replace(strIn, @"[^\w\.@-]", "");}3.更改日期格式以下代码示例使用 Regex.Replace 方法来用 dd-mm-yy 的日期形式代替 mm/dd/yy 的日期形式。 [Visual Basic] Function MDYToDMY(input As String) As StringReturn Regex.Replace(input, _"\b(?\d{ 1,2 })/(?\d{ 1,2 })/(?\d{ 2,4 })\b", _"${ day }-${ month }-${ year }")End Function[C#] String MDYToDMY(String input){ return Regex.Replace(input,"\\b(?\\d{ 1,2 })/(?\\d{ 1,2 })/(?\\d{ 2,4 })\\b","${ day }-${ month }-${ year }");}Regex 替换模式本示例说明如何在 Regex.Replace 的替换模式中使用命名的反向引用。其中,替换表达式 ${ day } 插入由 (?…) 组捕获的子字符串。 有几种静态函数使您可以在使用正则表达式操作时无需创建显式正则表达式对象,而 Regex.Replace 函数正是其中之一。如果您不想保留编译的正则表达式,这将给您带来方便 4.提取 URL 信息以下代码示例使用 Match.Result 来从 URL 提取协议和端口号。例如,“http://www.penner.cn:8080……将返回“http:8080”。 [Visual Basic] Function Extension(url As String) As StringDim r As New Regex("^(?\w+)://[^/]+?(?:\d+)?/", _RegexOptions.Compiled)Return r.Match(url).Result("${ proto }${ port }")End Function[C#] String Extension(String url){ Regex r = new Regex(@"^(?\w+)://[^/]+?(?:\d+)?/", RegexOptions.Compiled); return r.Match(url).Result("${ proto }${ port }");}只有字母和数字,不小于6位,且数字字母都包含的密码的正则表达式在C#中,可以用这个来表示: "\w{ 6 }(\w+)*"一个将需要将路径字符串拆分为根目录和子目录两部分的算法程序,考虑路径格式有:C:\aa\bb\cc ,\\aa\bb\cc, ftp://aa.bb/cc上述路径将分别被拆分为:C:\和aa\bb\cc ,\\aa和 \bb\cc , ftp:// 和 aa.bb/cc 用javascript实现如下: var strRoot,strSubvar regPathParse=/^([^\\^\/]+[\\\/]+|\\\\[^\\]+)(.*)$/if(regPathParse.test(strFolder)){ strRoot=RegExp.$1 strSub=RegExp.$2}Posted by should at  2006-06-12 10:49:11 | Read More  |  Edit | Comments(0) | Trackback(0) 正则表达式基本元素  -[多收了三五斗] 元字符:.: 用于匹配除换行符以外的任意单个字符。在awk中,句点也能匹配换行符 * :用于与它前面的正则表达式的零个或多个出现匹配,该表达式通常是一个字符。在正则表达式中,*本身不匹配任何字符,.*匹配任意数目的字符;而shell中,*本身就具有这样的含义。 [...] :匹配方括号中的字符类中的任意一个。如果方括号中第一个字符为脱字符号(^),则表示否定匹配,即匹配除了换行符和类中列出的那些字符以外的所有字符。在awk中,也匹配换行符。连字符(-)用于表示字符的范围。如果类中的第一个字符为右方括号(])则表示它是类的成员。所有其他的元字符在被指定为类中的成员时都会失去它们原来的含义。 ^: 如果作为正则表达式的第一个字符,则表示匹配行的开始。在awk中匹配字符串的开始,即使字符串包含嵌入的换行符。 $ :如果作为正则表达式的最后一个字符,则表示匹配行的结尾。在awk中匹配字符串的结尾,即使字符串包含嵌的换行符。 \{n,m\}: 匹配它前面某个范围内单个字符出现的次数(包括由正则表达式指定的字符)。\{n\}将匹配n次出现,\{n,\}至少匹配n次出现,而且\{n,m\}匹配n和m之间的任意次出现。 \ :转义随后的特殊字符 扩展的元字符(egrep, awk)+ :匹配前面的正则表达式的一次或多次出现? :匹配前面的正则表达式的零次或多次出现| :指定可以匹配其前面的或后面的正则表达式(): 对正则表达式分组{n,m}: 匹配它前面某个范围内单个字符出现的次数(包括由正则表达式指定的字符)。{n}表示匹配n次出现,{n,}至少匹配n次出现,{n,m}匹配n和m之间的任意次出现。(用于POSIX的egrep和POSIX的awk,而非传统的egrep和awk) 字符类[]的用法其中的特殊字符:\ 转移任意特殊字符(只用于awk中)- 不用在第一或最后一个位置时,表示范围^ 仅当在第一个位置时表示反转匹配。将类中所有字符都排除在匹配之外,除换行符以外的没有列在方括号中的任意字符都将被匹配。eg. [a-zA-Z][.?!]:匹配后面跟由句点、问号和感叹号的任意小写或大写字母POSIX字符类补充:POSIX标准对正则表达式字符和操作符的含义进行了形式化。这种标准定义了两类正则表达式: 基本正则表达式(grep,sed使用这种正则表达式)和扩展的正则表达式(egrep和awk使用)POSIX标准增强了匹配不在英文字母表中的字符的字符类的功能。POSIX标准中称“字符类”为“括号表达式”。在括号表达式中,除了有字面字符(如a,!等),还有其他标记: ·字符类:由[:和:]包围的关键字组成的POSIX字符类。如: [:alnum:]  可打印的字符(包括空白字符)  [:alpha:]  字母字符 ·整理(collating)字符:整理符号是多字符的序列,表示这些字符应该被看成一个单元,由[.和.]包围的字符组成。 ·等价类:等价类列出了应该看做是等价的字符集,例如英文的e和法文的e,它由地区化的字符元素组成。由[=和=]包围组成。^和$在sed和grep中,只要不是出现在pattern的特殊位置,均不作特殊处理。而awk中,无论他们在什么位置,都被解释成特殊意义,除非用\ 后记: 本想找找看如何匹配汉字,但从linux下的grep和awk等工具的manual中看,似乎他们没有提供这样的功能。倒是搜到了javascript中如何匹配中文字符的正则表达式,ms其中使用的是字符编码来匹配的。看来,要写匹配中文的正则表达式,只能借助具体语言来看了

(0)

相关推荐

  • EditPlus中通过正则表达式删除文档多余空行

    可能是一些编辑人员在选择ftp上传下载或者编辑器的原因造成的。如果文章比较长,那么手工删除空行就成为一件颇费精力的事情。难道就没有别的办法?当然有! 现在我分享出editplus利用正则表达式删除文档 ...

  • linux运维实用的42个常用命令总结

    linux运维实用的42个常用命令总结

  • EmEditor 正则表达式使用基础与实战

    一、基础篇1. ^ 匹配行首,比如说查找^s, 就是查位于行首的 s 2. .*?$ 这个用处比较大,但一般不单独使用,比如与上面的结合 比如 ^s.*?$,就是查以 s 为行首的行,其中 .* 是匹 ...

  • Notepad++快捷键&正则表达式替换字符串&插件使用介绍

    Notepad++绝对是windows下进行程序编辑的神器之一,要更快速的使用以媲美VIM,必须灵活掌握它的快捷键,下面对notepad++默认的快捷键做个整理(其中有颜色的为常用招数): 1. 文件 ...

  • Emeditor怎么使用 Emeditor正则表达式大全

    经常用到EmEditor来编辑纯文本文档。最近接触了正则表达式,感受到其功能非常强大。 正则表达式实在包含的内容太多, 仅仅用一篇文章来涵盖是没可能的了, 所以我只是简要的做些介绍和基本的模式应用举例 ...

  • 使用Ultrapico Expresso学习正则表达式

    Ultrapico Expresso是我工作中经常使用的一个非常强大的正则表达式构建、测试以及代码生成工具。它能够对你构建的正则表达式进行解析、验证,并输出解析结果,提供性能测试工具,支持C#、VB等 ...

  • EditPlus中通过正则表达式删除文档多余空行使用指南[图文]

    EditPlus是一套功能强大,可取代记事本的文字编辑器,拥有无限制的撤消与重做、英文拼字检查、自动换行、列数标记、搜寻取代、同时编辑多文件、全屏幕浏览功能。而它还有一个好用的功能,就是它有监视剪贴板 ...

  • XYplorer 实用技巧:批量重命名使用方法

    下面小编就为大家详细的讲解使用XYplorer软件对文件进行批量重命名的方法,希望可以帮助到大家. XYplorer 的重命名功能有些“怪异”,它将重命名分解成三个子项,分别是: Batch Rena ...

  • 常用正则表达式

    操作方法 01 正则表达式用于字符串处理.表单验证等场合,实用高效.现将一些常用的表达式收集于此,以备不时之需. 匹配中文字符的正则表达式: [\u4e00-\u9fa5]评注:匹配中文还真是个头疼的 ...