wx63b7d0f7b5d5a的博客_大数据

欢迎

hive

数据仓库

数据

mysql

原创 2023-01-06 16:02:39 142 阅读

hive中得字符串连接函数concat,concat_ws,group_concat

contact() 连接多个字符串，如果其中有一个字符串为Null，则最后结果

hive

hadoop

concat

字符串

分隔符

原创 2023-01-06 16:00:28 280 阅读

学习总结——hive数仓

学习总结——hive数仓数据仓库概念：数据仓库是集成化的数据分析

学习总结——hive数仓

hive

数据

mysql

原创 2023-01-06 15:59:57 114 阅读

hive中常用的时间格式转化

select from_unixtime(unix_timestamp('20180905','yyyyMMdd'),'yyyy-MM-dd');SELECT nexECT to_date(

hive

unix

时间戳

日期格式

原创 2023-01-06 15:59:57 76 阅读

jupyter notebook安装介绍

jupyter notebook是一款交互式笔记本，可以使用网页打开，支持40多种编程语言，可以在该网页中

python

anaconda

linux

编写代码

编程语言

原创 2023-01-06 15:59:54 83 阅读

hive复制表结构

1、复制非分区表结构CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_old;2、复制分17_new like bigdata17_old;

hadoop

hive复制表结构

分区表

原创 2023-01-06 15:59:49 324 阅读

date和dateTime以及timestamp的区别

Date 代表xx年xx月xx日，只表示前面的日期DateTime代表xx年xx月xx日xx时xx分xx秒，基本原样输入和输出...

大数据

客户端

时间戳

原创 2023-01-06 15:59:42 290 阅读

linux

hadoop

用户组

用户名

添加用户

原创 2023-01-06 15:59:39 81 阅读

hive数据导入导出方式

1、数据导入load data local inpath '/usr/local/data/user.txt' into table jiuye pa

hive

加载数据

数据导出

hdfs

原创 2023-01-06 15:59:33 100 阅读

学习总结——hive高级

json数据的解析小结基本json和字符串数组（重点）json数据的解析内置函数get_json_object 一次n_tuple ...

学习总结——hive高级

json

数据

数组

原创 2023-01-06 15:59:28 185 阅读

hive数据导入到hbase

方式一： hbase中建表，然后hive中建外部表，这样当hive中写入数据后，hbase中的表也会同时更新创建hbase表create 'classes','user' --表名是class,有一个列族user查看表结构describe 'classes'加入两行数据put 'classes','001','user:name','jack'put 'classes','001','user

hive数据导入到hbase

hadoop

hbase

hive

数据

原创 2023-01-06 15:59:14 268 阅读

列式数据库和行式数据库区别

列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别1、数据是按行存储的 2、没有索引的查询使用大量I/O

数据库

行式

列式

数据

字段

原创 2023-01-06 15:59:06 788 阅读

样例类，样例对象，伴生类，伴生对象

样例类使用case class 类名定义case class Person(var name:String, var age:Int)可以直接使用： Person（“张三”，20）就=也...

对象名

伴生对象

构造器

原创 2023-01-06 15:57:23 134 阅读

Hadoop常用命令总结

启动命令start-all.sh //启动hadoop集群（同时启动yarn和hdfs集群）start-dfs.sh //单独启动hdfs集群start=

hadoop常用命令

hadoop

hdfs

上传

原创 2023-01-06 15:57:05 87 阅读

getBBytes和Bytes.toBytes的区别

Bytes.toBytes底层使用了getBytesBytes,toBytes是在转化成字节数组的时候，把它编码成utf-8的格式

字节数组

原创 2023-01-06 15:56:58 74 阅读

hbase预分区

1、什么是预

hbase预分区

shell命令

java

html

原创 2023-01-06 15:56:57 77 阅读

linux系统——hadoop环境搭建

一、环境准备1）jdk（hadoop是由java语言编写的）2）防火墙关闭（iptables,selinux）3）设置主机名，以及ip映射4）设置时钟同步5）设置免密登录6）windows配置ip映射说明：具体操作参照上两篇博客（集群环境搭建和zookeeper搭建）二、搭建hadoop集群1、解压hadoop的cdh预编译版本的安装包到esport/server2、进...

hadoop集群搭建

hadoop

xml

hdfs

原创 2023-01-06 15:56:55 203 阅读

kudu介绍和使用

kudu架构同hdfs和Hbase相似,kudu使用单个的master节点，用来管理集

kudu

主键

数据

外部表

原创 2023-01-06 15:56:49 521 阅读

linux系统——httpd的介绍及安装问题解决方案

一、httpd是什么httpd是apache超文本传输协议（http）的服务器程序二、基于linux安装httpd1、安

httpd

安装

重启

ip地址

apache

原创 2023-01-06 15:56:43 324 阅读

linux系统——zookeeper集群搭建

一、准备jdk(因为zookeeper是由java编写的)1.卸载centos自带的Openjdk,安装oracle的jdkrpm -qa | grep jav

zk集群搭建

zookeeper

配置文件

安装包

原创 2023-01-06 15:56:33 134 阅读

streamSets中导入数据从jdbc到kudu出现时区问题

出现的问题：streamSets中从mysql读取数据到kudu，发现时间字段少

mysql

bc

读取数据

原创 2023-01-06 15:56:18 112 阅读

hive动态分区

1、动态分区参数设置开启动态分区—默认为falsehive.exec.dynamic.partition =true设置动态分区模式动态分区的模式为strict，表示必须指定至少一个分区为静态分区， nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstricthive.exec.dynamic.partition.mode = nonstrict2、动态分区的

大数据

hive

插入数据

字段

原创 2023-01-06 15:56:07 90 阅读

hbase建表语句解析

create ‘tableName’,{NAME=>‘Toutiao’,VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>‘ROW’,COMPRESSION=>‘SNAPPY’,TTL => ’ 259200 '},{SPLITS => [‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘a’,‘b

数据

布隆过滤器

压缩率

原创 2023-01-06 15:56:00 503 阅读

hive中将bigint(13)转化为日期类型

un...

时间戳

unix

类型转化

原创 2023-01-06 15:55:50 245 阅读

python代码--截取文件名中的日期作为表格中的列，并把这些结构相同的excel合并成一个

import osimport pandas as pdpwd = r'C:\Users\chenl\Desktop\睿智\需求文档\评分业务\D3分\FICO_S

python

Desktop

子目录

文件列表

原创 2023-01-06 15:55:39 57 阅读

hive开窗函数

1、什

.net

原创 2023-01-06 15:55:38 124 阅读

kafka常用命令

查看topic信息：bin/kafka-topics.sh --list --bootstrap-server common1:9092查看topic内容：bin/kafka-console-

kafka

大数据

bootstrap

bc

原创 2023-01-06 15:55:35 38 阅读

hive中not in函数的坑

not in () --括号中是不为Null的字符串，但是最后得到的结果不包含Null原因：上述语句返回的结果是null，而不是true，not in 只会筛选出结果是true的

hive中not in函数的坑

字符串

原创 2023-01-06 15:55:30 171 阅读

sqoop和flume的区别

sqoopsqoop是一种旨在haoop和如mysql等结构化数据存储之间传输大量数据的工具原理：将导入导出的命令翻译成mapr

sqoop和flume的区别、

hadoop

大数据

hdfs

sqoop

原创 2023-01-06 15:55:26 67 阅读

hive表修复分区--（导入hdfs文件，hive表刷新不出来）

msck repair table 表名作用是将任何存在于hdfs，但不在metastore上的partition元信息更新到metastore中

hive表修复分区

表名

hdfs

原创 2023-01-06 15:55:15 247 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

wx63b7d0f7b5d5a的博客

欢迎

hive相关知识与操作

hive中得字符串连接函数concat,concat_ws,group_concat

学习总结——hive数仓

hive中常用的时间格式转化

jupyter notebook安装介绍

hive复制表结构

date和dateTime以及timestamp的区别

linux中用户相关命令

hive数据导入导出方式

学习总结——hive高级

hive数据导入到hbase

列式数据库和行式数据库区别

样例类，样例对象，伴生类，伴生对象

Hadoop常用命令总结

getBBytes和Bytes.toBytes的区别

hbase预分区

linux系统——hadoop环境搭建

kudu介绍和使用

linux系统——httpd的介绍及安装问题解决方案

linux系统——zookeeper集群搭建

streamSets中导入数据从jdbc到kudu出现时区问题

hive动态分区

hbase建表语句解析

hive中将bigint(13)转化为日期类型

python代码--截取文件名中的日期作为表格中的列，并把这些结构相同的excel合并成一个

hive开窗函数

kafka常用命令

hive中not in函数的坑

sqoop和flume的区别

hive表修复分区--（导入hdfs文件，hive表刷新不出来）