敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。在实现敏感词过滤的算法中,我们必须要减少运算,而 ​​DFA​​​ 在 ​​DFA​​​ 算法中几乎没有什么计算,有的只是状态的转换。所以想更高效的进行敏感词的过滤,需要使用 ​​DFA​​ 算法。

但这里展示的是使用PHP实现简单的敏感词过滤,调用StringFiter类时,传入 ​​$sorStr​​​, 就可以将 ​​$sorStr​​​ 中敏感的词汇转换为 ​​**​​ 。代码如下:

$GLOBALS['g_badword'] = [
'abc', 'xxxx'
];
$GLOBALS['g_badword_arr'] = array_combine($GLOBALS['g_badword'], array_fill(0, count($GLOBALS['g_badword']), '**'));

/**
* 敏感词过滤
*/
class StringFiter
{
public static function Get_Fiter($sorStr)
{
if(!$sorStr)
return '';

// 先声明
global $g_badword_arr;

return strtr($sorStr, $g_badword_arr);
}
}

互联网常用敏感词、停止词词库 ​​https://github.com/fwwdn/sensitive-stop-words​