程序员X小鹿的博客_大数据_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# 大数据

Hadoop（二）—— Hadoop命令

Hadoop命令任务命令启动/停止历史服务器mr-jobhistory-daemon.sh start | stop historyserver启动/停止总资源管理器yarn-da

hadoop

hdfs

jar

原创 4月前 19 阅读

Hadoop（六）—— HDFS之DataNode

Hadoop（六）—— HDFS之DataNode

文章目录1. DataNode工作机制2. 数据的完整性3. 掉线时限参数设置4. DataNode的目录结构5. DataNode多目录配置1. DataNode工作机制DataNode启动后向N

hadoop

hdfs

datanode

数据

数据块

原创 4月前 4 阅读

Hive（三）—— Hive数据类型

文章目录1. 基本数据类型2. 集合数据类型3. 类型转化1. 基本数据类型NOHive数据类型Java数据类型长度例子1TINYINTbyte1byte有符号整数202SMALINTshort2byte有符号整数203INTint4byte有符号整数204BIGINTlong8byte有符号整数205BOOL...

hive

数据类型

分隔符

数组

原创 4月前 13 阅读

Hive（七）—— 函数

文章目录1. 系统自带的函数2. 自定义函数2.1 开发自定义函数2.2 测试开发的自定义函数1. 系统自带的函数1）查看系统自带的函数hive> show functions;2）显示自带的函数的用法hive> desc function upper;3）详细显示自带的函数的用法hive> desc function extended upper;2. 自定义函...

hive

hive函数

自定义函数

jar

原创 4月前 7 阅读

Hadoop（一）—— Hadoop入门

Hadoop介绍思想之源Google是Hadoop的思想之源（Google在大数据方面的三篇论文）GFS ====> HDFS（存储）Map-Reduce ====> MR（计算）BigTable ==

hadoop

Hadoop

数据

元数据

原创 4月前 9 阅读

Hadoop（三）—— Hadoop序列化

Hadoop序列化1 为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一他数据传输协...

hadoop

序列化

Hadoop

反序列化

原创 4月前 29 阅读

Hadoop（十）—— Yarn

Hadoop（十）—— Yarn

文章目录1. Yarn概述2. Yarn工作机制2.1 名词解释2.2 Yarn工作机制简化版2.3 Yarn工作机制复杂版3. 作业提交过程4. 资源调度器4.1 先进

hadoop

yarn

优先级

ci

Hadoop

原创 4月前 6 阅读

Hadoop（四）—— HDFS读写流程

Hadoop（四）—— HDFS读写流程

1. HDFS介绍1.1 概念HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件通过目录树来定位文件；其

客户端

HDFS

数据

原创 4月前 242 阅读

Hadoop（五）—— HDFS之NameNode、SecondaryNameNode

Hadoop（五）—— HDFS之NameNode、SecondaryNameNode

文章目录1. NamaNode和Secondary NameNode工作机制2. 镜像文件和编辑日志文件3. 滚动编辑日志4. NameNode版本号5

大数据

hadoop

hdfs

namenode

文件系统

原创 4月前 25 阅读

Hadoop（九）—— MapReduce

Hadoop（九）—— MapReduce

文章目录1. MapReduce介绍1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 MapRed

hadoop

mapreduce

数据

自定义

java

原创 4月前 26 阅读

Hadoop（七）—— HDFS之其他功能

文章目录1. 集群间数据拷贝2. Hadoop归档3. 快照4. 回收站1. 集群间数据拷贝1）scp实现两个远程主机之间的文件复制# 推 pushscp -r hello.txt root@bigdata111:/user/during/hello.txt # 拉 pullscp -r root@bigdata112:/user/during/hello.txt hello.t...

hadoop

hdfs

ide

原创 4月前 22 阅读

Hadoop（八）—— 通过Java API操作HDFS

文章目录1. 获取文件系统2. 上传3. 下载4. 创建目录5. 删除文件6. 重命名7. 查看【文件】名称、权限等8. 判断是否是个文件还是目录，

hadoop

大数据

hdfs

System

文件系统

原创 4月前 7 阅读

Hadoop（十二）—— Hadoop压缩

文章目录1. Hadoop压缩概述2. 压缩方式2.1 Bzip2压缩2.2 Gzip压缩2.3 Lzo压缩2.4 Snappy压缩3. MR支持的压缩编码4. 压缩率

hadoop

hadoop压缩

apache

Hadoop

原创 4月前 18 阅读

Hadoop（十一）—— Hadoop企业优化

文章目录1. HDFS小文件优化2. MapReduce优化2.1 MapReduce程序效率瓶颈2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶

hadoop

数据

mapreduce

默认值

原创 4月前 27 阅读

Hive（一）—— Hive入门

Hive（一）—— Hive入门

文章目录1. Hive是什么2. Hive的优缺点2.1 优点2.2 缺点3. Hive架构原理4. Hive和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4

hive

Hive

数据库

数据

原创 4月前 16 阅读

Hive（五）—— Hive数据导入/导出

文章目录1. 数据导入1.1 方式一：load data方式向表中装载数据1.2 方式二：通过查询语句向表中插入数据（Insert）1.3 方式三：查询

hive

数据

HDFS

原创 4月前 133 阅读

Hive（六）—— 查询

文章目录1. 基本查询2. Where语句3. 分组4. Join4.1 内连接(join)4.2 左外连接(left join)4.3 右外连接(right join)4.4 满外连接(full join)4.5 多表

hive

数据

基本数据类型

原创 4月前 14 阅读

Hive（四）—— DDL数据定义

本文介绍Hive DDL数据定义相关操作。包括数据库的创建、删除、修改、查询，还有普通表、分区表的创建，删除、修改、查询。

hive

数据

分区表

原创 4月前 12 阅读

HBase（六）—— HBase集成Sqoop

Sqoop参数及描述参数描述--column-family <family>设置导入的目标列族。--hbase-create-table是否自动创建不存在的HBase表（这就意味着，不需要手动提前在HBase中先建立表）--hbase-row-key <col>mysql中哪一列的值作为HBase的rowkey，如果rowkey是个组..

hbase

sqoop

MySQL

安装配置

mysql

原创 4月前 15 阅读

Hive（八）—— 压缩和存储

文章目录1. 压缩1.1 Hodoop压缩1.2 Map输出阶段压缩1.3 Reduce输出阶段压缩2. 存储2.1 文件存储格式2.2 主流文件存储格式对比3. 压缩和存储结合1. 压缩1.1 Hodoop压缩详见 Hadoop（十二）—— Hadoop压缩1.2 Map输出阶段压缩开启map输出阶段压缩，可以减少job中map和Reduce task间数据传输量。具体配置如下：...

hive

hive压缩

hive文件存储格式

mapreduce

数据

原创 4月前 5 阅读

Hive（九）—— Hive参数配置方式

文章目录Hive参数配置方式1. 配置文件方式2. 命令行参数方式3. 参数声明方式总结Hive参数配置方式1. 配置文件方式默认配置文件：hive-default.xml用户自定义配置文件：hive-site.xml注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件...

hive

hive参数配置方式

Hive

配置文件

原创 4月前 1 阅读

Hive（十）—— Hive企业级优化

Hive（十）—— Hive企业级优化

文章目录1. 表的优化1.1 小表Join大表1.2 大表Join大表1.3 MapJoin1.4 Group By1.5 Count(Distinct) 去重统计1.6 笛

大数据

hive优化

hive

数据

Time

原创 4月前 49 阅读

HBase（一）—— HBase入门

HBase（一）—— HBase入门

文章目录1. HBase简介2. HBase的角色2.1 HMaster2.2 HRegionServer2.2.1 功能2.2.2 组件3. HBase架构4. HBase数据模型5. HBase读写流程1. HBase简介HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。大：上亿行、百万列。面向列：面向列（簇）的存储和权限控制，列（簇）独立检索。稀...

hbase

数据

HDFS

Hadoop

原创 4月前 19 阅读

HBase（四）—— HBase基本操作

进入HBase客户端：# hbase shell基本操作：-- 帮助> help> help 'list'-- 查看当前数据库中有哪些表> list-- 查看当前数据库中

hbase

数据

时间戳

数据库

原创 4月前 18 阅读

HBase（七）—— HBase集成Phoenix

文章目录1. Phoenix简介2. 安装配置（各个节点上都需要配置）3. 基本命令4. 映射表1. Phoenix简介可以把Phoenix理解为HBase的查询引擎，

hbase

phoenix

表名

xml

apache

原创 4月前 16 阅读

HBase（二）—— HBase节点的管理

文章目录服役（commissioning）退役（decommissioning）服役（commissioning）① 往集群中增加一个新的RegionServer节点；② 将退役的重新上线。当启动RegionServer时，RegionServer会向HMaster注册并开始接收本地数据，开始的时候，新加入的节点不会有任何数据，平衡器开启的情况下，将会有新的Region移动到开启的Regi...

hbase

数据

新版本

离线

原创 4月前 18 阅读

HBase（五）—— HBase集成Hive

文章目录1. HBase与Hive对比2. HBase集成Hive3. HBase与Hive集成案例3.1 案例一3.2 案例二1. HBase与Hive对比HiveHBase特点类SQL

hbase

hive

Hive

jar

原创 4月前 5 阅读

HBase（九）—— HBase优化

文章目录1. 预分区2. RowKey设计3. 内存优化4. 基础优化1. 预分区HBase默认建表时有一个Region，这个Region的RowKey是没有

hbase

数据

xml

RPC

原创 4月前 31 阅读

Sqoop（一）—— Sqoop安装配置

文章目录1. Sqoop介绍1.1 Sqoop简介1.2 Sqoop原理2. Sqoop安装配置1. Sqoop介绍1.1 Sqoop简介Apache Sqoop™是一种旨在有效地在

sqoop

hadoop

Apache

原创 4月前 88 阅读

HBase（八）—— 配置HBase高可用

在HBase中，HMaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果HMaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状

hbase

高可用

重启

重新启动

原创 4月前 60 阅读

首页
1
2
3
共69条记录