1.关于正则表达式的符号及意义
正则表达式由标准的元字符(metacharacters)所构成:
/ | 做为转义,即通常在“/”后面的字符不按原来意义解释,如/b/匹配字符“b”,当b前面加了反斜杠后//b/,转义为匹配一个单词的边界。-或-对正则表达式功能字符的还原,如““匹配它前面元字符0次或多次,/a/将匹配a,aa,aaa,加了"/"后,/a//将只匹配”a“。 |
^ | 匹配一个输入或一行的开头 ,/^a/匹配”an A“,而不匹配”An a“ |
$ | 匹配一个输入或一行的结尾,/a$/匹配”An a“,而不匹配”an A“ |
* | 匹配前面原字符0次或多次,/ba*/将匹配b,ba,baa |
+ | 匹配前面元字符1次或多次,/ba*/将匹配ba,ba,baaa |
? | 匹配前面元字符0次或1次,/ba?/将匹配b,ba |
(x) | 匹配x保存x在名为$1…$9的变量中 |
{n} | 精确匹配n次 |
{n,} | 匹配n次以上 |
{n,m} | 匹配n-m次 |
[xyz] | 字符集(character set),匹配这个集合中任一一个字符(或元字符) |
[^xyz] | 不匹配这个集合中的任何一个字符 |
[/b] | 匹配一个退格符 |
/b | 匹配一个单词的边界 |
/B | 匹配一个单词的非边界 |
/d | 匹配一个数字字符,//d/=/[0-9]/ |
/D | 匹配一个非数字字符,//D/=/[^0-9]/ |
/n | 匹配一个换行符 |
/r | 匹配一个换行符 |
/S | 匹配一个空白字符,包括/n,/r,/f,/t,/v等 |
/w | 匹配一个可以组成单词的字符,包括下划线,如[/w]匹配”$5.98“中的5,等于[a-zA-Z0-9] |
/W | 匹配一个不可以组成单词的字符,如[/W]匹配”5.98“中的$,等于[^a-zA-Z0-9] |
‘( )’ 标记一个子表达式的开始和结束的位置。
'[]'标记一个中括号表达式。
/num匹配num,其中num是一个正整数。对锁获取的匹配的引用。
2.regexp_extract函数
regexp_extract(str,regexp[,idx)
字符串正则表达式解析函数。
参数解释:
其中:
str 是被解析的字符串或字段名。
regexp 是正则表达式。
idx 是返回结果 取表达式的哪一部分 默认值是1。
0 是表示把整个表达式对应的结果全部返回
1 表示返回正则表达式中第一个()对应的结果 依次类推
注意事项:
idx的数字不能大于表达式中()的个数,否则会报错。
实例:
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',0);
得到结果:
itde
过程分析:
(i)表示匹配到字符i开始
(.?) (e) 为非贪婪模式 ,就是匹配尽可能少的字符。在这里匹配到任意的字符直到匹配到字符e结束。倘若有n个e并列,仅仅会渠道首个。
如果表达式为(.)(e)为贪婪模式,假如有n个e并列,则会匹配到这n个e。
2)
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',1);
得到结果:
i
返回完整结果中的第一个()中的元素。
3)
select regexp_extract('hitdescisiondlist','(i)(.*?)(e)',2);
得到结果:td
返回第二个括号中对应的元素。
4)
select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) ;
得到结果:abc
此时,当前的语句只有2个()表达式分别为([0-9]+)表示匹配到的数字出现1次或多次以及([a-z])表示匹配到的字母出现1次或多次。
如果,当都idx>=3时,就会报错。
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '3': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer) with arguments {x=a3&x=18abc&x=2&y=3&x=4,x=([0-9]+)([a-z]+),3}:No group 3