本文标签:php,过滤器
在以前,一个用户通过网络主要是获取信息 。而如今的网络刚更注重与用户的交互,用户不再仅仅是网站的浏览者,也是网站内容的制造者 。由以前单纯的“读”向“写”以及“共同创作”发展,由被动接收信息向主动分行信息发展 。而随之而来的安全问题也成了web开发者不可忽视的问题,验证第三方来源的数据成了每个web程序必不可少的功能 。
在以前,PHP需要验证数据,一般都是程序员自己通过正则表达式实现,而从PHP从5.2开始把原本的PCEL中的filter函数移到了内置库中,并做了不少强化,可以用这些函数实现对数据的过滤和验证 。
数据来源及验证类型 PHP中的数据来源包含两部分,其一是外部变量(如POST、GET、COOKIE等),还有一种是页面内部产生的数据 。PHP针对这两种数据类型分别定义了ilter_input_**和filter_var_**系列函数 。而依据验证方法的不一样又可以分为Validating和Sanitizing两种 。Validating用于验证数据,返回一个布尔值 。Sanitizing则按规则过滤一些特定的字符,返回的是处理后的字符串 。
简单用法 比如验证一个字符串是否是一个整数,在以往我们可以通过正则表达式或是is_numeric函数实现:
复制代码 代码如下: $str = 51ab; preg_match(/^[0-9]*$/, $str); is_numeric($str);
新的验证函数可以用以下方式:
$str = 51ab; echo filter_var($str, FILTER_VALIDATE_INT) ? is valid : is not valid;FILTER_VALIDATE_INT是PHP定义的一个过滤器,用于验证$str是否为一个整数 。实际上这就是一个数值常量,通过echo FILTER_VALIDATE_INT;发现值为257 。所以我们也可以用:
$str = 51ab; echo filter_var($str, 257) ? is valid : is not valid;PHP中定义了大量常用的过滤器,我们可以通过filter_list()获得所有支持的过滤器名称(用字符串表示),然后再用filter_id(string)获取其数值:
print_r(filter_list()); // 所有支持的过滤器名称 。 echo =========; echo filter_id(int); // int 是filter_list返回的一个过滤器名称 。以上将输入出类似以下内容:
array(0=>int,1=>boolean,2=>float,3=>validate_regexp) ========== 257Sanitizing过滤器 上面这个是验证数据格式是否正确,有时候过滤掉无关的内容也是挺重要的 。SANITIZE过滤提供了这种功能,比如过滤掉一个email中多余的字符:
$email = <script>alert("test");</sript>xxx@caixw.com; echo $email; // 直接输出,将会执行script脚本 。 echo filter_var($email, FILTER_SANITIZE_EMAIL); // 会过滤掉<和>输出scriptalerttestscriptxxx@caixw.com选项和标志 filter_var的功能还不止于此,还可以指定第三个参数,附加一些特殊的选项,比如一个规定了最大值的整数:
复制代码 代码如下: $options = array( options=>array(max_range=>50), flags=>FILTER_FLAG_ALLOW_OCTAL, ); $str = 51; echo filter_var($str, FILTER_VALIDATE_INT, $options) ? is valid : is not valid;
上面将返回is not valid 。因为max_range规定其最大值只能为50 。而FILTER_FLAG_ALLOW_OCTAL则允许验证的数据是一个八进制的,也即是0开头的 。
$options参数是一个数组,包含两个元素:options和flags 。若是只有flags元素,则也可以直接传递而不用数组 。
验证外部数据 除了PHP脚本自己产生的数据,来自用户提交的数据占大部分 。当然我们也可以直接用filter_var进行过滤:
复制代码 代码如下: if(isset($_GET[age])) { echo filter_var($_GET[age], FILTER_VALIDATE_INT) ? is valid : is not valid; }
但是PHP中还专门提供了几个函数用于验证外部来源的数据:
复制代码 代码如下: if(filter_has_var(INPUT_GET, age)) { echo filter_input(INPUT_GET, age, FILTER_VALIDATE_INT) ? is valid : is not valid; }
相较于filter_var,filter_input多了一个参数(第一个参数)用于指定数据的来源 。而filter_has_var()而用来判断是否存在指定的数据 。
一次过滤多个数据 PHP还提供了filter_var_array和filter_input_array函数用于一次性验证多个数据 。
这是来自php.net上的一个实例,用于说明filter_var_array()怎么使用 。
复制代码 代码如下: $data = array( product_id => libgd<script>, component => 10, versions => 2.0.33, testscalar => array(2, 23, 10, 12), testarray => 2, );
$args = array( product_id => FILTER_SANITIZE_ENCODED, component => array(filter => FILTER_VALIDATE_INT, flags => FILTER_FORCE_ARRAY, options => array(min_range => 1, max_range => 10) ), versions => FILTER_SANITIZE_ENCODED, doesnotexist => FILTER_VALIDATE_INT, testscalar => array( filter => FILTER_VALIDATE_INT, flags => FILTER_REQUIRE_SCALAR, ), testarray => array( filter => FILTER_VALIDATE_INT, flags => FILTER_FORCE_ARRAY, ) ); $myinputs = filter_var_array($data, $args);
自定义过滤器 可以通过传递一个特殊的过滤器FILTER_CALLBACK来指定一个自定义的过滤器,下面这个过滤器将把所有邮箱地址的@转换成# 。
复制代码 代码如下: function fun($value) { return strtr($value,@,#); } $var = filter_var(abc@caixw.com, FILTER_CALLBACK, array(options => fun)); echo $var;
其它
ID (过滤器常量) |
名称 (filter_list()函数返回的名称) |
可用选项 |
标志位 |
描述 |
Validating |
FILTER_VALIDATE_BOOLEAN |
"boolean" |
|
FILTER_NULL_ON_FAILURE |
当难的数据为"1","true","on","yes"时返回true,否则返回false 。当设置了FILTER_NULL_ON_FAILURE标志位,则仅在值是"0","false","off","no", 和""是返回false,其它非true值返回null 。 |
FILTER_VALIDATE_EMAIL |
"validate_email" |
|
|
验证邮箱 |
FILTER_VALIDATE_FLOAT |
"float" |
decimal |
FILTER_FLAG_ALLOW_THOUSAND |
验证浮点数 |
FILTER_VALIDATE_INT |
"int" |
min_range, max_range |
FILTER_FLAG_ALLOW_OCTAL, FILTER_FLAG_ALLOW_HEX |
验证一个指定范围内的整数值 |
FILTER_VALIDATE_IP |
"validate_ip" |
|
FILTER_FLAG_IPV4, FILTER_FLAG_IPV6, FILTER_FLAG_NO_PRIV_RANGE, FILTER_FLAG_NO_RES_RANGE |
验证IP地址 |
FILTER_VALIDATE_REGEXP |
"validate_regexp" |
regexp |
|
验证一个正则表达式 |
FILTER_VALIDATE_URL |
"validate_url" |
|
FILTER_FLAG_PATH_REQUIRED, FILTER_FLAG_QUERY_REQUIRED |
验证一个URL |
Sanitizing |
FILTER_SANITIZE_EMAIL |
"email" |
|
|
移除除英文字符,数字以及!#$%&*+-/=?^_`{|}'@.[]之外的字符 。 |
FILTER_SANITIZE_ENCODED |
"encoded" |
|
FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH |
URL编码字符串,去除或编码指定字符串 。 |
FILTER_SANITIZE_MAGIC_QUOTES |
"magic_quotes" |
|
|
应用 addslashes()函数 |
FILTER_SANITIZE_NUMBER_FLOAT |
"number_float" |
|
FILTER_FLAG_ALLOW_FRACTION, FILTER_FLAG_ALLOW_THOUSAND, FILTER_FLAG_ALLOW_SCIENTIFIC |
移除除数字,+-以及.,eE以外的字符 |
FILTER_SANITIZE_NUMBER_INT |
"number_int" |
|
|
移除除数字以及+-以外的字符 |
FILTER_SANITIZE_SPECIAL_CHARS |
"special_chars" |
|
FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_HIGH |
HTML转义字符,"&><以及 ASCII 值小于 32 的字符 。以及其它指定的字符 。 |
FILTER_SANITIZE_STRING |
"string" |
|
FILTER_FLAG_NO_ENCODE_QUOTES, FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP |
去除标签,或是去除或编码指定的字符 。 |
FILTER_SANITIZE_STRIPPED |
"stripped" |
|
|
Alias of "string" filter. |
FILTER_SANITIZE_URL |
"url" |
|
|
删除所有字符除字母、数字以及$-_.+!*(),{}|\\^'[]`<>#%";/?:@&= |
FILTER_UNSAFE_RAW |
"unsafe_raw" |
|
FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP |
不做任何改变,或是按标志位去除或是编码指定字母 。 |
FILTER_CALLBACK |
"callback" |
|
FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP |
自定义过滤器 |
标志位
ID |
可用的过滤器 |
描述 |
FILTER_FLAG_STRIP_LOW |
FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_UNSAFE_RAW |
去除ASCII小于32的字符 。 |
FILTER_FLAG_STRIP_HIGH |
FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_UNSAFE_RAW |
去除ASCII在于127的字符 。 |
FILTER_FLAG_ALLOW_FRACTION |
FILTER_SANITIZE_NUMBER_FLOAT |
允许小数点分隔符(.) |
FILTER_FLAG_ALLOW_THOUSAND |
FILTER_SANITIZE_NUMBER_FLOAT, FILTER_VALIDATE_FLOAT |
允许千位分隔符(,) |
FILTER_FLAG_ALLOW_SCIENTIFIC |
FILTER_SANITIZE_NUMBER_FLOAT |
允许科学计数法(e或E) 。 |
FILTER_FLAG_NO_ENCODE_QUOTES |
FILTER_SANITIZE_STRING |
不编码引号(单引号和双引号) 。 |
FILTER_FLAG_ENCODE_LOW |
FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW |
编码ASCII小于32的字符 。 |
FILTER_FLAG_ENCODE_HIGH |
FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW |
编码ASCII大于127的字母 。 |
FILTER_FLAG_ENCODE_AMP |
FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW |
编码&符号 。 |
FILTER_NULL_ON_FAILURE |
FILTER_VALIDATE_BOOLEAN |
返回null当验证数据不是以下字符串时(yes,no,1,0,true,false,on,off) 。 |
FILTER_FLAG_ALLOW_OCTAL |
FILTER_VALIDATE_INT |
允许八进制数值(0开头) 。 |
FILTER_FLAG_ALLOW_HEX |
FILTER_VALIDATE_INT |
允许16进制数值 。(0X或是0x开头) 。 |
FILTER_FLAG_IPV4 |
FILTER_VALIDATE_IP |
IP4格式字符串 。 |
FILTER_FLAG_IPV6 |
FILTER_VALIDATE_IP |
IP6格式字符串 。 |
FILTER_FLAG_NO_PRIV_RANGE |
FILTER_VALIDATE_IP |
RFC指定的私域IP 。IP4如下范围10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16 。或是IP6以下开头的域: FD或FC |
FILTER_FLAG_NO_RES_RANGE |
FILTER_VALIDATE_IP |
要求值不在保留的 IP 范围内 。IPv4 ranges:0.0.0.0/8, 169.254.0.0/16,192.0.2.0/24 and 224.0.0.0/4 。不能应用于IP6 。 |
FILTER_FLAG_PATH_REQUIRED |
FILTER_VALIDATE_URL |
要求URL包含路径部分 。 |
FILTER_FLAG_QUERY_REQUIRED |
FILTER_VALIDATE_URL |
要求URL查询字符串 。 |
|