第4章 数据处理-php正则表达式-郑阿奇(续)


  本文标签:正则表达式

1.正则表达式基础知识
含义:由普通字符和(a-z)和一些特殊字符组成的字符串模式
功能:有效性验证 。
替换文本 。
从一个字符串提取一个子字符串 。
分类:POSIX和Perl
POSIX风格更容易掌握,但不能用于二进制模式,而perl相对比较复杂 。
2.POSIX风格的正则表达式
1.编写正则表达式
表4.3 POSIX正则表达式语法格式列表

字 符

描 述

\

转义字符,用于转义特殊字符 。例如,.匹配单个字符,\.匹配一个点号 。\-匹配连字符-,\\匹配符号\

^

匹配输入字符串的开始位置 。例如^he表示以he开头的字符串

$

匹配输入字符串的结束位置 。例如,ok$表示以ok结尾的字符串

*

匹配前面的子表达式零次或多次 。例如,zo*能匹配"z"以及"zoo" 。*等价于{0,}

+

匹配前面的子表达式一次或多次 。例如,zo+能匹配"zo"以及"zoo",但不能匹配"z" 。+等价于{1,}

?

匹配前面的子表达式零次或一次 。例如,do(es)?可以匹配"do"或"does"中的"do" 。?等价于{0,1}

{n}

n是一个非负整数 。匹配确定的n次 。例如,o{2}不能匹配"Bob"中的o,但是能匹配"food" 中的两个o

{n,}

n是一个非负整数 。至少匹配n次 。例如,o{2,}不能匹配"Bob"中的o,但能匹配"foooood" 中的所有o 。o{1,}等价于o+ 。o{0,}则等价于o*

{n,m}

mn均为非负整数,其中nm 。最少匹配n次且最多匹配m次 。例如,"o{1,3}"将匹配"fooooood"中的前三个o 。o{0,1}等价于o? 。请注意在逗号和两个数之间不能有空格

?

当该字符紧跟在任何一个其他限制符(*, +, ?, {n}, {n,}, {n,m})后面时,匹配模式是非贪婪的 。非贪婪模式尽可能少地匹配所搜索的字符串,而默认的贪婪模式则尽可能多地匹配所搜索的字符串 。例如,对于字符串"oooo",o+?将匹配单个"o",而o+ 将匹配所有o

.

匹配除"\n"之外的任何单个字符,要匹配包括\n 在内的任何字符,可以使用[.\n]的模式

(pattern)

匹配pattern并获取这一匹配 。所获取的匹配保存到相应的数组中 。要匹配圆括号字符,请使用 \( 或 \)

(?:pattern)

匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储 。这在使用"或"|"来组合一个模式的各个部分时很有用 。例如,industr(?:y|ies).就是一个比industry|industries更简略的表达式

(?=pattern)

正向预查,在任何匹配pattern的字符串开始处匹配查找字符串 。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用 。例如,Windows(?=95|98|NT|2000)能匹配"Windows 2000"中的"Windows",但不能匹配"Windows 3.1"中的"Windows" 。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始

(?!pattern)

负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串 。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用 。例如Windows(?!95|98|NT|2000)能匹配"Windows 3.1"中的"Windows",但不能匹配"Windows 2000"中的"Windows" 。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始

x|y

匹配x或y 。例如,z|food 能匹配"z"或"food",(z|f)ood则匹配"zood"或"food"

[xyz]

字符集合 。匹配所包含的任意一个字符 。例如,[abc]可以匹配"plain"中的a

[^xyz]

负值字符集合 。匹配未包含的任意字符 。例如,[^abc]可以匹配"plain"中的p

[a-z]

字符范围 。匹配指定范围内的任意字符 。例如,[a-z]可以匹配a到z 范围内的任意小写字母字符

[^a-z]

负值字符范围 。匹配不在指定范围内的任意字符 。例如,[^a-z]可以匹配不在a 到z范围内的任意字符

以下是几个简单的正则表达式的例子:
●[A-Za-z0-9] :表示所有的大写字母、小写字母及0到9的数字 。
●^hello:表示以hello开始的字符串 。
●world$:表示以world结尾的字符串 。
●.at:表示以除"\n"外的任意单个字符开头并以"at"结尾的字符串,如"cat"、"nat"等 。
●^[a-zA-Z]:表示一个以字母开头的字符串 。
●hi{2}:表示字母h后跟着两个i即hii 。
●(go)+:表示至少含有一个go字符串的字符串,如gogo
身份证号码一般由18位数字或17位数字后面加一个X或Y字母组成,要匹配身份证号码,可以写作:
^[0-9]{17}([0-9]|X|Y)$
Email地址的正则表达式可以写作:
^[a-zA-Z0-9\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$
2.字符串的匹配
ereg()和eregi()函数
使用ereg()函数可以查找字符串与子字符串匹配的情况,并返回匹配字符串的长度,还可以借助参数返回匹配字符的数组 。语法格式如下:
int ereg(string ($pattern) , string $string [, array $regs ])
复制代码 代码如下:

<?php
/*本例检查字符串是否是ISO格式的日期(YYYY-MM-DD) */
$date="1988-08-09";
$len=ereg (([0-9]{4})-([0-9]{1,2})-([0-9]{1,2}), $date, $regs);//日期格式为YYYY-MM-DD
if ($len)
{
echo "$regs[3].$regs[2].$regs[1]". "<br>"; //输出"09.08.1988"
echo $regs[0] ."<br>"; //输出"1988-08-09"
echo $len; //输出10
}
else
{
echo "错误的日期格式: $date";
}
?>

3.字符串的替换
ereg_replace()函数语法格式如下:
string ereg_replace(string $pattern , string $replacement , string $string)
说明:函数使用字符串$replacement替换字符串$string中与$pattern匹配的部分,并返回替换后的字符串 。若未找到匹配项,则原样返回
复制代码 代码如下:

<?php
$str="hello world";
echo ereg_replace([aeo], x,$str). "<br>"; //输出hxllx wxrld
$res=<a href=\"hello.php\">hello</a>;
echo ereg_replace(hello, $res,$str); //使用超链接替换hello
?>

4.分割数组

使用split()函数可以完成与explode()函数一样的功能,而且可以根据给出的正则表达式来分割字符串,并返回一个数组 。语法格式如下:

array split(string $pattern , string $string [, int $limit ])

5.产生正则表达式

3.Perl兼容的正则表达式

1.编写正则表达式

表4.4 Perl兼容正则表达式扩充的语法格式

字 符

描 述

\b

匹配一个单词边界,也就是指单词和空格间的位置 。例如,er\b可以匹配"never"中的 er,但不能匹配"verb"中的er

\B

匹配非单词边界 。er\B能匹配"verb"中的er,但不能匹配"never"中的er

\cx

匹配由x指明的控制字符 。例如,\cM匹配一个Control-M或回车符 。x的值必须为A~Z或a~z之一 。否则,将c视为一个原义的c字符

\d

匹配一个数字字符 。等价于[0-9]

\D

匹配一个非数字字符 。等价于[^0-9]

\f

匹配一个换页符 。等价于\x0c和\cL

\n

匹配一个换行符 。等价于\x0a和\cJ

\r

匹配一个回车符 。等价于\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等 。等价于 [ \f\n\r\t\v]

\S

匹配任何非空白字符 。等价于 [^ \f\n\r\t\v]

\t

匹配一个制表符 。等价于\x09和\cI

\v

匹配一个垂直制表符 。等价于\x0b和\cK

\w

匹配包括下划线的任何单词字符 。等价于[A-Za-z0-9_]

\W

匹配任何非单词字符,等价于[^A-Za-z0-9_]

\xn

匹配n,其中n为十六进制转义值 。十六进制转义值必须为确定的两个数字长 。例如,\x41 匹配"A" 。\x041则等价于\x04 & "1" 。正则表达式中可以使用ASCII编码

\num

匹配num,其中num是一个正整数 。对所获取的匹配的引用 。例如,(.)\1匹配两个连续的相同字符

\n

标志一个八进制转义值或一个后向引用 。如果\n之前至少有n个获取得子表达式,则n为后向引用 。否则,如果n为八进制数字(0~7),则n为一个八进制转义值

\nm

标志一个八进制转义值或一个后向引用 。如果\nm之前至少有nm个获取得子表达式,则 nm为后向引用 。如果\nm之前至少有n个获取,则n为一个后跟文字m的后向引用 。如果前面的条件都不满足,若 n和m均为八进制数字(0~7),则\nm将匹配八进制转义值nm

\nml

如果n为八进制数字(0~3),且m和l均为八进制数字(0~7),则匹配八进制转义值nml

\un

匹配n,其中n是用4个十六进制数字表示的Unicode字符 。例如,\u00A9匹配版权符号(©)

2.字符串匹配
preg_match()函数进行字符串的查找,语法格式如下:
int preg_match(string $pattern , string $subject [, array $matches [, int $flags ]])
说明:该函数的结构与ereg()函数类似,在$subject字符串中搜索与$pattern给出的正则表达式相匹配的内容 。
preg_match()函数返回$pattern所匹配的次数 。不是0次(没有匹配)就是1次,因为preg_match()函数在第一次匹配之后将停止搜索
还有一个是preg_match_all(),从第一个匹配的末尾开始继续搜索,直到搜索完整个字符串 。
preg_match_all()函数参数$flags的值可以取以下三种:
●PREG_PATTERN_ORDER 。默认项,表示$matches[0]为全部模式匹配的数组,
$matches[1]为第一个括号中的子模式所匹配的字符串组成的数组,以此类推 。
●PREG_SET_ORDER 。如果设定此标记,则$matches[0]为第一组匹配项的数组,$matches[1]为第二组匹配项的数组,以此类推 。
●PREG_OFFSET_CAPTURE 。PREG_OFFSET_CAPTURE可以和其他两个标记组合使用,
如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量 。
3.字符串的替换
使用preg_replace()函数能够完成与函数ereg_replace()相同的功能,在字符串中查找匹配的子字符串,并用指定字符串替换子字符串 。
语法格式如下:
mixed preg_replace(mixed $pattern , mixed $replacement , mixed $subject [, int $limit ])
4.字符串的分割
preg_split()函数可以使用正则表达式作为边界分割一个字符串,并将子字符串存入一个数组返回,作用与split()函数类似 。
语法格式如下:
array preg_split(string $pattern , string $subject [, int $limit [, int $flags ]])
说明:本函数区分大小写,返回一个数组,数组包含$subject中沿着与$pattern匹配的边界所分割的子串 。
$limit是可选参数,如果指定则最多返回$limit个字串,如果省略或为-1,则没有限制 。
$flags的值可以是以下三种:
●PREG_SPLIT_NO_EMPTY 。如果设定本标记,则函数只返回非空的字符串 。
●PREG_SPLIT_DELIM_CAPTURE 。如果设定本标记,定界符模式中的括号表达式的匹配项也会被捕获并返回 。
PREG_SPLIT_OFFSET_CAPTURE 。如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量 。
4.3实例-验证表单内容
【例4.4】 使用正则表达式验证用户输入的表单内容是否满足格式要求 。
新建EX4_4_Hpage.php文件,输入以下代码 。
复制代码 代码如下:

<?php
include EX4_4_Hpage.php; //包含文件EX4_4Hpage.php
$id=$_POST[ID];
$pwd=$_POST[PWD];
$phone=$_POST[PHONE];
$Email=$_POST[EMAIL];
$checkid=preg_match(/^\w{1,10}$/,$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match(/^\d{4,14}$/,$pwd); //检查是否在4~14个数字之间
$checkphone=preg_match(/^1\d{10}$/,$phone); //检查是否是以1开头的11位数字
//检查Email地址的合法性
$checkEmail=preg_match(/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/,$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>

新建EX4_4_Ppage.php文件,输入以下代码:
2.字符串匹配
preg_match()函数进行字符串的查找,语法格式如下:
int preg_match(string $pattern , string $subject [, array $matches [, int $flags ]])
说明:该函数的结构与ereg()函数类似,在$subject字符串中搜索与$pattern给出的正则表达式相匹配的内容 。
preg_match()函数返回$pattern所匹配的次数 。不是0次(没有匹配)就是1次,因为preg_match()函数在第一次匹配之后将停止搜索
还有一个是preg_match_all(),从第一个匹配的末尾开始继续搜索,直到搜索完整个字符串 。
preg_match_all()函数参数$flags的值可以取以下三种:
●PREG_PATTERN_ORDER 。默认项,表示$matches[0]为全部模式匹配的数组,
$matches[1]为第一个括号中的子模式所匹配的字符串组成的数组,以此类推 。
●PREG_SET_ORDER 。如果设定此标记,则$matches[0]为第一组匹配项的数组,$matches[1]为第二组匹配项的数组,以此类推 。
●PREG_OFFSET_CAPTURE 。PREG_OFFSET_CAPTURE可以和其他两个标记组合使用,
如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量 。
3.字符串的替换
使用preg_replace()函数能够完成与函数ereg_replace()相同的功能,在字符串中查找匹配的子字符串,并用指定字符串替换子字符串 。
语法格式如下:
mixed preg_replace(mixed $pattern , mixed $replacement , mixed $subject [, int $limit ])
4.字符串的分割
preg_split()函数可以使用正则表达式作为边界分割一个字符串,并将子字符串存入一个数组返回,作用与split()函数类似 。
语法格式如下:
array preg_split(string $pattern , string $subject [, int $limit [, int $flags ]])
说明:本函数区分大小写,返回一个数组,数组包含$subject中沿着与$pattern匹配的边界所分割的子串 。
$limit是可选参数,如果指定则最多返回$limit个字串,如果省略或为-1,则没有限制 。
$flags的值可以是以下三种:
●PREG_SPLIT_NO_EMPTY 。如果设定本标记,则函数只返回非空的字符串 。
●PREG_SPLIT_DELIM_CAPTURE 。如果设定本标记,定界符模式中的括号表达式的匹配项也会被捕获并返回 。
PREG_SPLIT_OFFSET_CAPTURE 。如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量 。
4.3实例-验证表单内容
【例4.4】 使用正则表达式验证用户输入的表单内容是否满足格式要求 。
新建EX4_4_Hpage.php文件,输入以下代码 。
复制代码 代码如下:

<?php
include EX4_4_Hpage.php; //包含文件EX4_4Hpage.php
$id=$_POST[ID];
$pwd=$_POST[PWD];
$phone=$_POST[PHONE];
$Email=$_POST[EMAIL];
$checkid=preg_match(/^\w{1,10}$/,$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match(/^\d{4,14}$/,$pwd); //检查是否在4~14个数字之间
$checkphone=preg_match(/^1\d{10}$/,$phone); //检查是否是以1开头的11位数字
//检查Email地址的合法性
$checkEmail=preg_match(/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/,$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>

新建EX4_4_Ppage.php文件,输入以下代码:
复制代码 代码如下:

<?php
include EX4_4_Hpage.php; //包含文件EX4_4Hpage.php
$id=$_POST[ID];
$pwd=$_POST[PWD];
$phone=$_POST[PHONE];
$Email=$_POST[EMAIL];
$checkid=preg_match(/^\w{1,10}$/,$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match(/^\d{4,14}$/,$pwd); //检查是否在4-14个字符之间
$checkphone=preg_match(/^1\d{10}$/,$phone); //检查是否是以1开头的11位数子
//检查Email地址的合法性
$checkEmail=preg_match(/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/,$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>