db2正则表达式函数 regxep db2正则表达式截取字符串

转载

mob6454cc7416d1 2024-04-12 18:54:55

文章标签 db2正则表达式函数 regxep db2 正则匹配子串字符串 bc 文章分类 数据仓库大数据

先前提到该实现假定模式在处理期间不会随行的不同而更改。当然，如果模式确实更改了，您可以进行少量的改写以再次编译一个模式。要这样做，有必要跟踪当前(已编译的)模式并在每次调用中将它与所提供的模式进行比较。也可以在高速暂存中维护当前模式。但必须将它复制到独立的缓冲区，并且不能通过指针模式直接引用它，因为这个指针或它所引用的数据可能会更改或变为无效。至于相应的代码更改，就当作练习留给读者了。

返回匹配子串

大多数模式匹配引擎提供了一种方法，返回与指定模式或其一部分相匹配的子串。如果想在 SQL 中使用这种能力，则必须使用不同的方法来实现匹配函数。给定的字符串可能包含不止一个匹配的子串。例如，当解析类似“abc = 123;”或“def = 'some text';”这样的字符串时，用户可能会希望检索由等号分隔的两个子串。您可以使用模式“\\w+\\s*=\\s*(\\d+|'[\\w\\s] *');”来表示适用于该字符串的语法规则。Perl 兼容的正则表达式允许您捕获等号两边的子串。最后，必须将要捕获的子串用括号括起来。我已经用该方式编写了第二个子串，但第一个子串不是这样编写的。用于该用途的最终模式是这样的：

(\\w+)\\s*=\\s*(\\d+|'[\\w\\s]*');

当把这个模式应用于字符串“abc= 123;”或“def = 'some text';”时，“abc”或“def”分别与“(\\w+)”匹配，空格和等号是通过“\\s*=\\s*”查找的，并用另外的“(\\d+|'[\ \w\\s*]')”涵盖了余下的子串。在“(\\d+|'[\\w\\s*]')”中，第一个选项与任何至少由一个数字“\\d+”组成的数匹配，而第二个选项解析任何由字母和空格组成的由单引号括起的字符串“'[\\w\\s]*'”。

在 DB2 中做到这一点的需求可以描述成：为一次 UDF 调用返回多个结果。换句话说，就是返回针对模式进行匹配的单个字符串的多个子串。DB2 的表函数是完成这一任务的完美工具。

实现表 UDF

和以前一样，必须在数据库中创建该函数。清单 8中的下列语句正是用于这一任务的：

CREATE FUNCTION regex3(pattern VARCHAR(2048), string CLOB(10M))
RETURNS TABLE ( position INTEGER, substring VARCHAR(2048) )
SPECIFIC regexSubstr
EXTERNAL NAME 'regexUdf!regexpSubstr'
LANGUAGE C
PARAMETER STYLE DB2SQL
DETERMINISTIC
NOT FENCED
RETURNS NULL ON NULL INPUT
NO SQL
NO EXTERNAL ACTION
SCRATCHPAD 50
NO FINAL CALL
DISALLOW PARALLEL;

实现该函数的实际逻辑的 C 代码与清单 7中的代码非常相似，但根据表函数所必须满足的特殊需求对它进行了改编，如清单 9所示。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。