简单入门PHP中的过滤器相关函数

一般在业务开发中,我们对于一些参数数据的过滤大部分还是使用传统的 if 以及正则进行判断过滤。但其实 PHP 中也提供了一些过滤器,可以帮助我们方便地进行数据的过滤筛选以及部分替换操作。今天我们就来简单的学习一下这些函数的使用。

过滤函数

首先还是从代码入手,过滤器这块的参数配置比较丰富,我们不会一一的讲解,只通过例子进行简单的了解即可,更复杂的应用大家可以自行查阅相关的文档。

$int1 = 1;
$int2 = -1;
$int3 = "3";

$options = [
    'options' => [
        'min_range' => 0,
        'max_range' => 3,
    ],
];

var_dump(filter_var($int1, FILTER_VALIDATE_INT, $options)); // int(1)
var_dump(filter_var($int2, FILTER_VALIDATE_INT, $options)); // bool(false)
var_dump(filter_var($int3, FILTER_VALIDATE_INT, $options)); // int(3)

这段代码是针对数字类型的过滤,使用的是 filter_var() 函数。从函数的名称就可以看出,这个函数的作用就是过滤变量。在这段测试代码中,我们使用了 FILTER_VALIDATE_INT 这个常量参数,它的意思就是过滤验证整数类型。然后我们还为它指定了一个 options ,也就是一个选项参数,里面设置了数字过滤的范围是 0 到 3 。

输出的结果和我们预期的一样,如果没有被过滤掉,这个 filter_var() 返回的就是原来的数据,如果被过滤掉了,那么它返回的就是一个 false 。除了数字类型的过滤操作之外,还比较常用的就是邮件地址的过滤操作。

$email1 = 'a@b.com';
$email2 = 'a.b.com';
$email3 = '(a@b.com)';
var_dump(filter_var($email1, FILTER_VALIDATE_EMAIL)); // string(7) "a@b.com"
var_dump(filter_var($email2, FILTER_VALIDATE_EMAIL)); // bool(false)
var_dump(filter_var($email3, FILTER_VALIDATE_EMAIL)); // bool(false)

很明显,只要将 FILTER_VALIDATE_INT 换成 FILTER_VALIDATE_EMAIL 就可以实现标准邮件地址的过滤操作。而 options 也可以看出是一个可选的参数,在这段测试代码中我们并没有使用这个参数。

$sanitized = filter_var($email3, FILTER_SANITIZE_EMAIL);
var_dump($sanitized); // string(7) "a@b.com"

上文中说过,过滤相关的函数还可以实现简单的替换过滤操作,这里我们使用 FILTER_SANITIZE_EMAIL 就可以将数据替换成正常的邮件地址。SANITIZE 的意思是消毒、净化的意思,所以带 SANITIZE 相关的常量参数都是有这种净化的作用,也就是清除一些无用的字符。FILTER_SANITIZE_EMAIL 会清除除了标准字符、数字以及  !#$%&'*+-=?^_`~@.[] 这些符号之外的其它字符。比如我们上面这段代码中就是把 email3 中的小括号给清除掉了。

批量过滤

filter_var() 的作用是过滤一个变量的内容,在 PHP 中,也为我们提供了批量过滤数据的函数,它可以批量过滤指定数组中的数据。

$data = [
    'product_id' => 'libgd<script>',
    'component' => '10',
    'versions' => '2.0.33',
    'testscalar' => ['2', '23', '10', '12'],
    'testarray' => '2',
];

$args = [
    'product_id' => FILTER_SANITIZE_ENCODED,
    'component' => [
        'filter' => FILTER_VALIDATE_INT,
        'flags' => FILTER_FORCE_ARRAY,
        'options' => ['min_range' => 1, 'max_range' => 10],
    ],
    'versions' => FILTER_SANITIZE_ENCODED,
    'doesnotexist' => FILTER_VALIDATE_INT,
    'testscalar' => [
        'filter' => FILTER_VALIDATE_INT,
        'flags' => FILTER_REQUIRE_SCALAR,
    ],
    'testarray' => [
        'filter' => FILTER_VALIDATE_INT,
        'flags' => FILTER_FORCE_ARRAY,
    ],

];

print_r(filter_var_array($data, $args));
// Array
// (
//     [product_id] => libgd%3Cscript%3E
//     [component] => Array
//         (
//             [0] => 10
//         )

//     [versions] => 2.0.33
//     [doesnotexist] =>
//     [testscalar] =>
//     [testarray] => Array
//         (
//             [0] => 2
//         )

// )

这段代码使用的 filter_var_array() 看起来很复杂,其实和 filter_var() 的意思是差不多的,只是第一个参数变成了一个数组,而第二个参数也是一个数组的配置选项。两个数组的键要对应上,这样才能针对第一个数据数组中的数据进行过滤操作。

配置选项的数组中,默认情况下可以只给一个过滤常量,也可以通过一个二维数组通过 filter 字段指定过滤常量。同样地,在这个配置二维数组中可以指定 flags 和 options 。关于这三个字段的说明我们将在下节讲解。

在这段测试代码中, FILTER_SANITIZE_ENCODED 表示清理并编码数据。FILTER_FORCE_ARRAY 表示标记为数组,返回的结果会变成一个数组。FILTER_REQUIRE_SCALAR 表示返回一个标量字段,也就是必须是一个标题类型,不能是数组或者对象之类的内容。

过滤组件中的这些常量参数比较多,大家可以参考文档在实际应用中选择需要的常量。

过滤参数的说明

在上面的测试代码中,我们已经见过有几种类型的配置选项。比如 filter 、 flags 、options 。它们都是干什么用的呢?

Validation

Filter 相关的参数常量又分为 Validation 和 Sanitization 这两种类型。在上面的测试代码里面我们都已经见过了。

Validation 类型的,比如上面的 FILTER_VALIDATE_INT 这种,主要就是验证数据,作用于 filter_var() 或者 filter_var_array() 之后,如果数据不符合规则的话,就会返回 false 结果,如果数据通过的话,就返回原始的数据信息。

Sanitize

Sanitization 类型的,比如上面的 FILTER_SANITIZE_ENCODED ,就是前面说过的清理数据,可以通过删除不需要的字符来更改数据。注意,它不验证数据,只是清理更改。

Flags

Flags 是可以和 Validation 以及 Sanitization 配合使用的一种标记参数,或者可以说是针对于这两种配置参数的一个扩展,可以提供一些额外的功能。比如我们上面代码中使用到的 FILTER_REQUIRE_SCALAR 。

具体的这些参数的信息,可以在官方文档的 Types of filters 中看到。另外还有一个 options ,可以用于配置一些选项信息,使用得比较多的就是在上面测试中定义数字类型的区间 min_range 和 max_range 。

全局请求参数过滤

讲完了一些配置信息的基础说明之后,我们再来看看其它函数的使用。

$_GET['a'] = "I'm the One!";

// php -S localhost:9991 6.一起学习PHP中的过滤器相关函数.php
// http://localhost:9991/?a=I'm the one

var_dump(filter_has_var(INPUT_GET, 'a')); // bool(true)
var_dump(filter_has_var(INPUT_GET, 'g')); // bool(false)

filter_has_var() 用于判断指定的全局数据范围内某个数据是否存在。从这个 INPUT_GET 就可以看出,它判断的是 GET 请求参数中是否存在某个数据。如果我们通过代码直接给 $_GET 赋值的话,这个函数返回的也是 false 。也就是说,它判断的结果必须是正式从外面传递过来的数据。因此,我们可以再启动一个本地服务,然后通过 url 参数来进行测试。

$queryA = filter_input(INPUT_GET, 'a', FILTER_SANITIZE_ENCODED);

echo $queryA;

// I%27m%20the%20one

filter_input() 的使用和 filter_has_var() 类似,不过它是起到了过滤使用的函数。就像 filter_var() 一样,这个函数针对的是全局变量中的数据。同样地,它也有批量过滤的函数可以使用。

$args = [
    'a'=>FILTER_SANITIZE_ENCODED,
    'b'=>FILTER_VALIDATE_DOMAIN,
    'c'=>FILTER_VALIDATE_EMAIL,
    'd'=>[
        'filter'=>FILTER_SANITIZE_NUMBER_INT,
    ]
];
print_r(filter_input_array(INPUT_GET, $args));
// http://localhost:9991/?a=I'm the one@&b=opq.com.cn&c=ab.ab&d=foo baz 123
// Array
// (
//     [a] => I%27m%20the%20one%20%40
//     [b] => opq.com.cn
//     [c] => 
//     [d] => 123
// )

上述的这三个函数不仅可以接收 INPUT_GET ,还可以接收 INPUT_POST 、 INPUT_COOKIE 、INPUT_SERVER 以及 INPUT_ENV 这些参数。相信这个就不用多解释了,从名称就可以看出来这些参数代表的是什么意思。

其它相关函数

另外还有两个比较简单的函数,我们直接来看看它们的作用了解一下即可。

print_r(filter_list());
// Array
// (
//     [0] => int
//     [1] => boolean
//     [2] => float
//     [3] => validate_regexp
//     [4] => validate_domain
//     [5] => validate_url
//     [6] => validate_email
//     [7] => validate_ip
//     [8] => validate_mac
//     [9] => string
//     [10] => stripped
//     [11] => encoded
//     [12] => special_chars
//     [13] => full_special_chars
//     [14] => unsafe_raw
//     [15] => email
//     [16] => url
//     [17] => number_int
//     [18] => number_float
//     [19] => magic_quotes
//     [20] => add_slashes
//     [21] => callback
// )

用于返回所支持的过滤器列表,其实根据这些名字加上 FILTER_VALIDATE_ 就是这个过滤器的常量名称。但其实这些常量在源码中定义的都是一个数字符号。

var_dump(FILTER_SANITIZE_FULL_SPECIAL_CHARS); // int(522)

当然,它是把 VALIDATE 和 SANITIZE 混合在一起的,比如这个 FILTER_SANITIZE_FULL_SPECIAL_CHARS 是属于 SANITIZE 中的常量参数。不过我们有另外一个函数可以获得这些常量参数对应的数字符号。

foreach (filter_list() as $f) {
    echo filter_id($f), PHP_EOL;
}
// 257
// 258
// 259
// 272
// 277
// 273
// 274
// 275
// 276
// 513
// 513
// 514
// 515
// 522
// 516
// 517
// 518
// 519
// 520
// 521
// 523
// 1024

filter_id() 函数就是根据过滤器的名称获得这个过滤器的数字符号的函数,或者说这个数字符号就是这个过滤器的 id 。可以看到,522 也是包含在打印出来的数据中的。

总结

怎么样,这一套过滤相关的扩展函数是不是有点意思,大家可以多尝试在实际的业务代码中应用它们。这些函数是 PHP 中的默认函数,不需要额外的编译安装,上手就可以使用,非常地方便。

测试代码:

https://github.com/zhangyue0503/dev-blog/blob/master/php/2021/04/source/6.%E7%AE%80%E5%8D%95%E5%85%A5%E9%97%A8PHP%E4%B8%AD%E7%9A%84%E8%BF%87%E6%BB%A4%E5%99%A8%E7%9B%B8%E5%85%B3%E5%87%BD%E6%95%B0.php

参考文档:

https://www.php.net/manual/zh/book.filter.php