
什么是正则表达式?
假设用户需要在HTML表单中填写姓名、地址、出生日期等。那么在将表单提交到服务器进一步处理前,JavaScript程序会检查表单以确认用户确实输入了信息并且这些信息是符合要求的。 什么是正则表达式? 正则表达式(regularexpression)是一个描述字符模式的对象。ECMAScript的RegExp类表示正则表达式,而String和RegExp都定义了使用正则表达式进行强大的模式匹配和文本检索与替换的函数。 正则表达式主要用来验证客户端的输入数据。用户填写完表单单击按钮之后,表单就会被发送到服务器,在服务器端通常会用PHP、ASP.NET等服务器脚本对其进行进一步处理。因为客户端验证,北京IT培训认为可以节约大量的服务器端的系统资源,并且提供更好的用户体验。
什么叫正则表达式
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
正则表达式
本文主要内容:
正则表达式的概念,
语法,
常用正则表达式和python中的re库
正则表达式是用来简洁表达一组字符串的表达式,正则表达式是一种通用的字符串表达框架,正则表达式是具有某一类特征的一组字符串
'PY'
'PYY' ------>正则表达式:PY+
'PYYY...'
在文本处理中的应用:
>查找或替换一组字符串
>匹配字符串的部分或全部
正则表达式的语法
正则表达式由字符和操作符构成
操作符
常用的正则表达式匹配:
^[A-Za-z]+$ :由26个字母组成的字符串
^[A-Za-z0-9]+$ :由26个字母和数字组成的字符串
^-?\d+$ :整数形式的字符串
^[0-9]*[1-9]*[0-9]*$ :正整数形式的字符串
^[1-9]\d{5}$:中国境内邮政编码
[\u4e00-\u9fa5]:匹配中文字符
\d{3}-\d{8}:匹配国内电话号码010-68697314
python中Re库
Re库是Python中的标准库,主要用于字符串匹配。
调用:import re
raw string类型:原生字符串类型,不包含对转移字符串再次转移的字符串
例如:r'[1-9]\d{5}' ----> 操作符\d的斜杠为转义字符,不用原生字符串类型应该表示为\\d
re.search(pattern,string,flag=0):在字符串中搜索匹配正则表达式的第一个位置
pattern:正则表达式的字符串或原生字符串表示
string:待匹配字符串
flag:正则表达式使用时的控制标记
输出:432808
re.match(pattern,string,flag=0):从字符串的开始位置匹配,返回Match对象,参数同search()函数
输出:432808
re.findall(pattern,string,flag=0):搜索字符串返回所有能匹配的字符串,返回list,参数同search()函数
输出:['432808', '432800']
re.split(pattern,string,maxsplit=0,flag=0):搜索字符串返回所有能匹配的字符串,返回list,比search()函数多一个参数
maxsplit:最大分割数,剩余部分作为最后一个字符串
输出:['BOSTCODE_ONE:', ' ,BOSTCODE_TWO:', '']
['BOSTCODE_ONE:', ' ,BOSTCODE_TWO:432800']
re.finditer(pattern,string,flag=0):搜索字符串返回匹配结果的迭代类型,每一个元素是一个Match对象,
输出:
432808
432800
re.sub(pattern,repl,string,count=0,flag=0):搜索字符串返回匹配结果的迭代类型,每一个元素是一个Match对象,比search()函数多了两个参数
repl:替换匹配的字符串
count:匹配字符串的最大替换次数
输出:'BOSTCODE_ONE:12306 ,BOSTCODE_TWO:432800'
Re库的等价用法:
上面的用法为函数式用法:一次性操作,每次调用函数系统内部会将正则表达式字符串编译成正则表达式对象
等价用法为面向对象法:先编译正则表达式,然后用正则表达式对象来调用函数,可以多次使用,当匹配规则在多个地方使用先编译可以提高程序性能
输出:'BOSTCODE_ONE:12306 ,BOSTCODE_TWO:432800'
Re的Match对象
Match对象是一次匹配的结果,包含很多匹配信息
Match对象的属性
Match对象的方法
匹配模式
贪婪匹配:同时匹配长短不同的多项,返回长度最长的,Python默认采用这种模式
输出:'PYANBNCNDN'
最小匹配:在相应的操作符后面加?变为最小匹配模式
输出:'PYAN'
常用的最小匹配操作符
正则表达式
正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
一、元字符
1、点号(.)
可以匹配除了换行符以外的任意字符。
2、反斜线(\)
在任何元字符前加上反斜线,就会使它失去元字符的特殊作用。所以,如果要匹配反斜线,就要用两个反斜线表示。
二、简单的量词
1、星号(*)
用来匹配前面的条目零次或多次。
2、加号(+)
匹配前一个条目一次以上。
3、问号(?)
匹配前一个条目是可有可无的,前一个条目可以出现一次或者不出现。
4、{}
指定具体的重复次数。
三、模式分组
1、()的作用是对字符串分组。
2、捕获组:用反向引用来引用圆括号中的模式所匹配的文字。
3、反向引用:在反斜线的后面接上数字编号,如:\1、\2 。相应的数字表示对应顺序的捕获组。
4、用\g{N}来表示反向引用写法,其中N是想要反向引用的组号。
四、择一匹配
1、竖线(|)
通常可以读成“或”,意思是要么匹配左边的内容,要么匹配右边的内容。
2、字符集
指的是一组可能出现的字符,通过写在方括号([])内表示,它只匹配单个字符,但可以是字符集中列出的任何一个。
3、脱字符 (^)
在字符集开头的地方加上脱字符^,来表示这些字符除外。
注:^字符放在不同的位置,有不同的作用。
^在[]内代表“反向选择”,出现在[]外面表示匹配字符串开头。
五、字符集的简写
1、\d:表示任意一个数字的字符集的简写。
\D:即 [^\d],表示匹配非数字字符。
2、\s:表示匹配任意空白符
\S:即[^\s],表示非空白符。
3、\w:表示匹配 [a-z A-Z 0-9 _] 字母、数字、下划线。
\W:即 [^\w],表示匹配非单词字符。
4、\b:单词边界锚位,表示匹配任何单词的首位。
5、\B:非单词边界锚位