一、准备数据
-- 创建表
create table if not exists tmp_data_20201210
(
data string comment '测试数据'
);
-- 查看创建完的表结构
desc tmp_data_20201210;
-- 插入数据
insert into tmp_data_20201210
(data)
values
('111.11.1'),
('3.444'),
('17'),
('sss.sssss.222'),
('sss.sssss'),
('Smojojodhuhuhu'),
('Xh34556'),
('Xh34556.dww3444'),
('Xh34556.44444'),
('55555.adhoh2233.44444')
;
-- 查询数据
select * from tmp_data_20201210 limit 100;
数据表展示图
二、取纯数字类型的大版本(按点切分的第一列)
select distinct
if(
regexp_extract(SPLIT_PART(data,'.',1),'(^d+$)',0)='',
null,
SPLIT_PART(data,'.',1))
as data
from tmp_data_20201210
limit 100;
-- SPLIT_PART(data,'.',1) 按点切分,取第一列
-- regexp_extract(字段名,'(^d+$)',0) 判断字段是否是数字 不是数字的返回空''
纯数字类型
regexp_extract
regexp_extract(1,2,3) 字符串正则表达式解析函数
第一参数:要处理的字段
第二参数:需要匹配的正则表达式
第三个参数:
0 是显示与之匹配的整个字符串
1 是显示第一个括号里面的
2 是显示第二个括号里面的字段
常见应用
^ 表示开头
$ 表示结尾
. 表示任意字符
* 表示任意多个
? 匹配前面元字符0次或1次,/ba*/将匹配b,ba
+ 匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa
x|y 匹配x或y
{n} 精确匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz] 不匹配这个集合中的任何一个字符
/d 匹配一个字数字符,//d/ = /[0-9]/
/D 匹配一个非字数字符,//D/ = /[^0-9]/
/w 匹配一个可以组成单词的字符(alphanumeric,含数字),包括下划线,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
/W 匹配一个不可以组成单词的字符,如[/W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。
/b 匹配一个单词的边界
/B 匹配一个单词的非边界
/ 做为转意,即通常在"/"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后//b/,转意为匹配一个单词的边界。
-或-
对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"/"后,/a/*/将只匹配"a*"。
其他应用
(x) 匹配x保存x在名为$1...$9的变量中
[/b] 匹配一个退格符
/cX 这儿,X是一个控制符,//cM/匹配Ctrl-M
/n 匹配一个换行符
/r 匹配一个回车符
/s 匹配一个空白字符,包括/n,/r,/f,/t,/v等
/S 匹配一个非空白字符,等于/[^/n/f/r/t/v]/
/t 匹配一个制表符
/v 匹配一个重直制表符
三、去掉null的数据
select distinct
a.data
from(
select distinct
if(
regexp_extract(SPLIT_PART(data,'.',1),'(^d+$)',0)='',
null,
SPLIT_PART(data,'.',1))
as data
from tmp_data_20201210
) a where a.data is not null
limit 100;
最终结果