hive regexp_extract截取字段中的数值

原创

mob64ca12d0a366 2024-01-22 05:39:00 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d0a366的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive regexp_extract截取字段中的数值

在Hive中，我们经常需要从字符串字段中截取出特定的数值。这时，可以使用regexp_extract函数来实现。regexp_extract函数是Hive中的一个内置函数，它可以根据正则表达式从字符串中提取出匹配的子串。

regexp_extract函数的基本用法如下：

regexp_extract(string, pattern, index)

下面我们通过一个实例来演示regexp_extract函数的用法。

假设我们有一个Hive表users，其中有一个字段full_name存储了用户的完整姓名。我们想要从full_name字段中提取出用户的姓氏。

首先，我们创建一个名为users的Hive表，包含两个字段：id和full_name。

CREATE TABLE users (
  id INT,
  full_name STRING
);

然后，我们向users表中插入一些示例数据。

INSERT INTO users VALUES
  (1, 'John Doe'),
  (2, 'Jane Smith'),
  (3, 'Mike Johnson');

现在，我们可以使用regexp_extract函数来提取用户的姓氏。

SELECT full_name, regexp_extract(full_name, '^(\\w+)', 1) AS last_name
FROM users;

执行以上查询语句后，将得到以下结果：

可以看到，regexp_extract函数成功地从full_name字段中提取出了用户的姓氏。正则表达式'^(\\w+)'用于匹配字符串中的第一个单词。

在使用regexp_extract函数时，正则表达式的编写是非常重要的。下面介绍一些常用的正则表达式技巧。

假设我们有一个Hive表websites，其中有一个字段url存储了网站的URL。我们想要从url字段中提取出网站的域名。

首先，我们创建一个名为websites的Hive表，包含一个字段url。

CREATE TABLE websites (
  url STRING
);

然后，我们向websites表中插入一些示例数据。

INSERT INTO websites VALUES
  ('
  ('
  ('

现在，我们可以使用regexp_extract函数来提取网站的域名。

SELECT url, regexp_extract(url, '(https?://)([^/]+)', 2) AS domain
FROM websites;

执行以上查询语句后，将得到以下结果：

可以看到，regexp_extract函数成功地从url字段中提取出了网站的域名。正则表达式(https?://)([^/]+)用于匹配以http://或https://开头的URL，并提取出域名部分。

下一篇：es mysql in

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯