数据仓库概念:数据仓库是集成化的数据分析平台数据库:支持业务,支持事务(数据库读的压力大)数据仓库:支持分析,为企业决策提供支持注意:数据库和数据仓库不同,数据仓库主要是用来开展分析的特点不生产数据,来源于包括数据库在内的各个数据源不消费数据,分析数据的结果给各个数据应用使用主要特征面向主题:和分析的需求相关集成:确定分析的主题之后,寻找和主题相关的各个数据源数据 ,经过抽取,转化,加载,即ETL
contact() 连接多个字符串,如果其中有一个字符串为Null,则最后结果
学习总结——hive数仓数据仓库概念:数据仓库是集成化的数据分析
select from_unixtime(unix_timestamp('20180905','yyyyMMdd'),'yyyy-MM-dd');SELECT nexECT to_date(
jupyter notebook是一款交互式笔记本,可以使用网页打开,支持40多种编程语言,可以在该网页中
1、复制非分区表结构CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_old;2、复制分17_new like bigdata17_old;
Date 代表xx年xx月xx日,只表示前面的日期DateTime代表xx年xx月xx日xx时xx分xx秒,基本原样输入和输出...
1、查看所有用户cat /etc/passwd2、新增用户useradd 用户名 --创建用户passwd
1、数据导入load data local inpath '/usr/local/data/user.txt' into table jiuye pa
json数据的解析小结基本json和字符串数组(重点)json数据的解析内置函数get_json_object 一次n_tuple ...
方式一: hbase中建表,然后hive中建外部表,这样当hive中写入数据后,hbase中的表也会同时更新创建hbase表create 'classes','user' --表名是class,有一个列族user查看表结构describe 'classes'加入两行数据put 'classes','001','user:name','jack'put 'classes','001','user
列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别1、数据是按行存储的 2、没有索引的查询使用大量I/O
样例类使用case class 类名 定义case class Person(var name:String, var age:Int)可以直接使用 : Person(“张三”,20)就=也...
启动命令start-all.sh //启动hadoop集群(同时启动yarn和hdfs集群)start-dfs.sh //单独启动hdfs集群start=
Bytes.toBytes底层使用了getBytesBytes,toBytes是在转化成字节数组的时候,把它编码成utf-8的格式
1、什么是预
一、环境准备1)jdk(hadoop是由java语言编写的)2) 防火墙关闭(iptables,selinux)3)设置主机名,以及ip映射4)设置时钟同步5)设置免密登录6)windows配置ip映射说明:具体操作参照上两篇博客(集群环境搭建和zookeeper搭建)二、搭建hadoop集群1、解压hadoop的cdh预编译版本的安装包到esport/server2、进...
kudu架构同hdfs和Hbase相似,kudu使用单个的master节点,用来管理集
一、httpd是什么httpd是apache超文本传输协议(http)的服务器程序二、基于linux安装httpd1、安
一、准备jdk(因为zookeeper是由java编写的)1.卸载centos自带的Openjdk,安装oracle的jdkrpm -qa | grep jav
出现的问题:streamSets中从mysql读取数据到kudu,发现时间字段少
1、动态分区参数设置开启动态分区—默认为falsehive.exec.dynamic.partition =true设置动态分区模式 动态分区的模式为strict,表示必须指定至少一个分区为静态分区, nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstricthive.exec.dynamic.partition.mode = nonstrict2、动态分区的
create ‘tableName’,{NAME=>‘Toutiao’,VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>‘ROW’,COMPRESSION=>‘SNAPPY’,TTL => ’ 259200 '},{SPLITS => [‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘a’,‘b
un...
import osimport pandas as pdpwd = r'C:\Users\chenl\Desktop\睿智\需求文档\评分业务\D3分\FICO_S
1、什
查看topic信息:bin/kafka-topics.sh --list --bootstrap-server common1:9092查看topic内容:bin/kafka-console-
not in () --括号中是不为Null的字符串,但是最后得到的结果不包含Null原因:上述语句返回的结果是null,而不是true,not in 只会筛选出结果是true的
sqoopsqoop是一种旨在haoop和如mysql等结构化数据存储之间传输大量数据的工具原理:将导入导出的命令翻译成mapr
msck repair table 表名作用是将任何存在于hdfs,但不在metastore上的partition元信息更新到metastore中
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号