• 在数据仓库领域,有两位大师,一位是“数据仓库”之父 Bill Inmon,一位是数据仓库权威专家 Ralph Kimball,两位大师每人都有一本经典著作,Inmon大师著作《数据仓库》及Kimball大师的《数仓工具箱》,两本书也代表了两种不同的数仓建设模式,这两种架构模式支撑了数据仓库以及商业智能近二十年的发展。今天我们就来聊下这两种建模方式——范式建模和维度建模。本文开始先简单理解两种建模的
    园陌

    发布于:9 小时前

    阅读 34 评论 0 收藏 0
  • 1. HQL 判断空的函数https://www.w3school.com.cn/sql/func_date_format.asp2. 时间转换函数year(string date):返回年份部分的日期或时间戳字符串:year("1970-01-01 00:00:00") = 1970, year("1970-01-01") = 1970https://blog.csdn.net/wzzfeiti
    mb6066e165689bf

    发布于:3 天前

  • Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。1. 创建一个普通表table test_user
    数栈DTinsight

    发布于:5 天前

  • Hive Sql 大全本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode
    园陌

    发布于:11 天前

  • hive 本机测试使用local模式可以加快执行效率
    大酥酥

    发布于:2021-03-09 16:16:05

  • 自定义udf
    大酥酥

    发布于:2021-03-05 17:55:24

    阅读 45 评论 0 收藏 0
  • 不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!理论 本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORI
    园陌

    发布于:2021-02-20 20:46:01

  • 不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!理论 本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORI
    园陌

    发布于:2021-02-20 20:45:47

  • Hive笔记
    wx596231154f71c

    发布于:2021-02-04 18:36:47

    阅读 64 评论 0 收藏 0
  • 使用 beeline 远程连接 hive
    大酥酥

    发布于:2021-02-03 11:47:57

  • hive窗口函数/分析函数在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。窗口函数最重要的关键字是 partition by 和 ord
    园陌

    发布于:2021-01-21 21:37:17

  • 1、基本语法Function(arg1,...,argn)OVER([PARTITIONBY<...>][ORDERBY<....>][<window_expression>])Function(arg1,...,argn)可以是下面的函数:AggregateFunctions:聚合函数,比如:sum(...)、max(...)、min(...)、avg(...
    丿野狼★战天灬

    发布于:2021-01-18 16:47:57

  • 异常现象:使用beeline或者jdbc连接hive执行createtable异常为ClassNotFoundException:org.apache.hudi.hadoop.HoodieParquetInputFormat使用hiveclient可以正常执行cretetable异常分析:beeline是通过hiveserver2服务连接的hive,检查hiveserver2所在服务器jar包是否
    zhsusn

    发布于:2021-01-15 14:15:41

  • download:大数据开发工程师大数据开发工程师【完结】本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈,涵盖了企业中最常见的技术组件,可以满足大家在公司中的工作需求Q:这套课程要学多久?学完能达到什么水平呢?本套大数据学完的时间,和每个人的基础、接受能力和时间安排都有关,一般情况下,如果能保证每天听课1小时,练习至少2个小时,3~4个月是可以学完的。建
    mb5ff80d685e327

    发布于:2021-01-15 13:57:53

  • JOIN对于接触过数据库的人,这个词都不陌生,而且很多人很清楚各种JOIN,还有很多人对这个理解也不是很透彻。
    丿野狼★战天灬

    发布于:2021-01-14 11:21:53

  • 操作:执行Spark任务查询hive表时报NoClassDefFoundError异常异常日志javax.jdo.JDOFatalInternalException:Unexpectedexceptioncaught.atjavax.jdo.JDOHelper.invokeGetPersistenceManagerFactoryOnImplementation(JDOHelper.java:11
    zhsusn

    发布于:2021-01-14 11:01:33

  • 细节决定成败
    园陌

    发布于:2021-01-12 20:20:49

  • 本文首发于公众号:五分钟学大数据小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本
    园陌

    发布于:2021-01-10 12:12:22

  • 我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间调给一个档次。记得点赞收藏
    大数据老哥

    发布于:2021-01-08 00:05:03

  • 注:《hive实战practicalhiveaguidetohadoop'sdatawarehousesystem》以下简称hive实战也有一些被加入到其中第二章基础操作2.7命令行界面(千万注意那些是在命令行输入的命令,那些是在hive界面输入的,后面备注命令行输入就是命令行输入其他是hive里执行的)2.7.1CLI选项hive--help--servicecli命令行输入2.7.2变
    一个男孩

    发布于:2020-11-17 22:29:40

  • 注:《hive实战practicalhiveaguidetohadoop'sdatawarehousesystem》以下简称hive实战也有一些被加入到其中第二章基础操作2.7命令行界面(千万注意那些是在命令行输入的命令,那些是在hive界面输入的,后面备注命令行输入就是命令行输入其他是hive里执行的)2.7.1CLI选项hive--help--servicecli命令行输入2.7.2变
    一个男孩

    发布于:2020-11-17 22:29:32

  • 注:《hive实战practicalhiveaguidetohadoop'sdatawarehousesystem》以下简称hive实战也有一些被加入到其中第七章视图7.1from()aselectfroma;--这个写法oracle没有,可以借用下有点类似于with--创建视图createviewifnotexistsstock_basic_test_view(stock_id,stoc
    一个男孩

    发布于:2020-11-17 22:29:09

  • Hadoop/Hive自带权限控制集群安全下需求:支持多组件,最好能支持当前大数据技术栈的主要组件,HDFS、HBASE、HIVE、YARN、KAFKA等支持细粒度的权限控制,可以达到HIVE列,HDFS目录,HBASE列,YARN队列开源,社区活跃,按照现有的集群情况改动尽可能的小,而且要符合业界的趋势。现有方案:Hadoop、Hive本身的权限控制Kerberos安全认证ApacheRange
    ZeroOne01

    发布于:2020-11-11 18:33:13

  • 数据仓库VS数据库数据仓库的定义:数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境数据仓库VS数据库:数据库是面向事务的设计,数据仓库是面向主题设计的数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计
    ZeroOne01

    发布于:2020-11-09 17:23:30

  • Hive简介Hive官方文档:https://cwiki.apache.org/confluence/display/HiveHive产生的背景:在使用MapReduce进行编程的时候,会发现实现一个简单的功能例如WordCount都需要编写不少的代码,可想而知如果实现一个复杂点的应用所需的开发和维护成本就会非常高,为了解决MapReduce编程的不便性,Hive才得以诞生。另外一点就是HDFS上
    ZeroOne01

    发布于:2020-10-23 23:27:03

  • 离线和实时大数据开发实战
    一个男孩

    发布于:2020-09-16 09:55:48

  • 离线和实时大数据开发实战
    一个男孩

    发布于:2020-09-16 09:55:39

  • Hive函数
    wx5eba708eae438

    发布于:2020-08-29 19:25:08

  • 大数据
    wx5eba708eae438

    发布于:2020-08-29 19:00:27

  • rank窗口函数,聚合数据分组排序
    巧克力黒

    发布于:2020-07-22 20:25:18

推荐作者 更多
  • 王春海

    3099W+
    人气
    6208
    评论
    2763
    点赞
  • 罗勇

    3W+
    人气
    2
    评论
    5
    点赞
  • 更多作者
最新热评文章
o114958788:arp -a
王春海:从你的内网SQL Server和Web服务器到Internet,有2级路由器。 你需要在多WAN口路由器,映射端口到TMG服务器,再在TMG发布SQL Server及Web服务器。
wx60740d100692c:图片全部都无法查看额,大佬。403 Forbidden。没有权限?
wx6073eec9b01b9:老师讲的非常详细,事例
咖啡:可以写一个自己学习excle的技巧,比罗列这个要好很多~
写文章