南瓜数据客栈的博客_大数据

【大数据采集工具-gobblin】

一种分布式数据集成框架，可简化大数据集成的常见方面，例如流式数据和批处理数据生态系统的数据摄取、复制、组织

大数据

数据

数据质量

hadoop

原创 2022-09-24 00:56:47 94 阅读

apache软件下载地址

https://dist.apache.org/repos/dist/release/

大数据

apache

下载地址

原创 2021-08-20 10:22:34 166 阅读

hadoop之yarn

yarn介绍yarn是Apache Hadoop YARN，hadoop中的组件，是英文简称，全程是Yet Another Resource Negotiator，另一种资源协调者

hadoop

yarn

web界面

mapreduce

资源管理

原创 2021-08-05 13:56:14 498 阅读

hive之udf函数开发

接上一篇hive开发之maven手动安装jar包，点击可跳转添加pom依赖，说明version要与环境一致，不然可能会因为版本不一致问题报错 <dependencies>

hive

大数据

jar

hadoop

apache

原创 2021-08-05 13:55:59 323 阅读

Hadoop核心HDFS——HDFS写流程和读流程

HDFS写流程客户端向NameNode发起写数据请求分块写入DataNode节点，DataNode自动完成副本备份 DataNode向NameNode汇报存储完成，NameNode通知客户端HDFS读流程客户端向NameNode发起读数据请求 NameNode找出距离最近的DataNode节点信息客户端从DataNode分块下载文件...

HDFS

大数据

客户端

hdfs

分块

原创 2021-08-05 13:55:47 345 阅读

Hadoop核心HDFS——HDFS概念及优缺点

Hadoop：Hadoop是一个开源的大数据框架 Hadoop是一个分布式计算的解决方案 Hadoop = HDFS(分布式文件系统)+MapReduce(分布式计算)Hadoop核心HDFS 分布式文件系统：存储是大数据技术的基础MapReduce编程模型：分布式计算是大数据应用的解决方案HDFS总结普通的成百上千的机器按TB甚至PB为单位的大量的...

HDFS

hadoop

大数据

hdfs

数据块

原创 2021-08-05 13:55:44 513 阅读

使用idea数据开发中时区问题

本次问题和解决办法由@蕉下客提供问题背景：使用idea进行开发，mysql作为数据源，读取到的数据时间信息与真实时间相差八小时分析：

mysql

时区

intellij idea

ide

数据

原创 2021-08-05 13:55:39 2128 阅读

waterdrop介绍

WaterdropWaterdrop 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。Waterdrop尽所能为您解决可能遇到的问题：数据丢失与重复任务堆积与延迟吞吐量低应用到生产环境周期长缺少应用运行状态监控Waterdrop 使用场景海量数据ETL海量数据聚合多源数据处理Waterdrop 的特性简单易用，灵活配置，无需开发实时流式处理高性能海量数据处理能力模块化和插件化，易于扩

spark

flink

sql

github

apache

原创 2021-08-05 13:55:26 1334 阅读

hadoop2.x、hive、hbase、zookeeper常用端口

组件节点默认端口配置用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口，用于数据传输 HDFS DateNode 50075 dfs.datanod...

hadoop

zookeeper

hbase

hive

hdfs

原创 2021-08-05 13:55:24 1129 阅读

hive开发之maven手动安装jar包

开发hive udf函数时，添加hive-exec依赖，包不能引入，由于将maven镜像改为阿里镜像，hive-exec-1.2.1.jar找不到，导致pom文件报错于是去maven中央仓库检索，

maven

hive

udf

jar包

文本编辑器

原创 2021-08-05 13:55:23 470 阅读

FlinkSQL建表语句与插入语句

FlinkSQL来构建实时数仓，其思路大概如下：Flink的Table API提供了对kafka/jdbc/hbase等实时开发涉及到的组件的支持，以kafka为例，将kafka topic抽象成Flink Table，如下：FlinkSQL读数据建表语句CREATE TABLE flink_rtdw.demo.kafka_source_table ( topic STRING, bidWord STRING, planID STRING, eventTime INTEGER,...

flink

sql

kafka

unix

json

原创 2021-08-05 13:55:20 1957 阅读

ER详解及powerdesigner工具使用

一、概念数据模型概述数据模型是现实世界中数据特征的抽象。数据模型应该满足三个方面的要求：1）能够比较真实地模拟现实世界2）容易为人所理解3）便于计算机实现概念数据模型也称信息模型，它以实体－联系(Entity-RelationShip,简称E-R)理论为基础，并对这一理论进行了扩充。它从用户的观点出发对信息进行建模，主要用于数据库的概念级设计。通常人们先将现实世界抽象为概念世界，然后再将概念世界转为机器世界。换句话说，就是先将现实世界中的客观对象抽象为实体(Entity)和联系(Relatio

ER

数据库

模型

数据模型

powerdesigner

原创 2021-08-05 13:55:09 423 阅读

waterdrop介绍

开源大数据技术，会不断更新

大数据

开源

spark

hdfs

kafka

原创 2021-08-05 13:55:07 1426 阅读

hadoop之namenode检查点机制

NameNode使用两个文件来保留其命名空间：fsimage，它是命名空间和编辑的最新检查点，是自检查点以来命名空间更改的日志（日志）。当NameNode启动时，它会合并fsimage和edits journal以提供文件系统元数据的最新视图。NameNode然后用新的HDFS状态覆盖fsimage并开始一个新的编辑日志。Checkpoint节点定期创建命名空间的检查点。它从活动的NameNode下载fsimage和editlog，在本地合并它们，并将新映像上传回活动的NameNode。Checkpoi

hadoop

检查点

命名空间

配置文件

hdfs

原创 2021-08-05 13:55:05 781 阅读

大数据hadoop常用端口-hadoop 3.x 通信端口

关于hadoop 2.x的通信端口参考上一篇博客namenode rpc-address 8020 namenode http-address 9870 namenode https-address 9871 datanode address 9866 datanode http-address 9864 datanode https-address 9865 resourcemanager ht.

hadoop

原创 2021-08-05 13:55:04 2359 阅读

ambari安装包下载链接

Mysql 5.7.32链接：https://pan.baidu.com/s/1prpOgQwZ9LKEb8jk3LSovw提取码：az8f复制这段内容后打开百度网盘手机App，操作更方便哦--来自百度网盘超级会员V1的分享ambari-2.6.2.2 HDP-2.6.5链接：https://pan.baidu.com/s/1eOwpjPrLgxg_PlqzjfROkQ提取码：5isz复制这段内容后打开百度网盘手机App，操作更方便哦--来自百度网盘超级会员V1的分享...

ambari

百度网盘

手机app

mysql

原创 2021-08-05 13:54:57 1912 阅读

hive添加字段

hive (test)> alter table lx add columns(id string);OKTime taken: 0.25 secondshive (test)> alter table lx add columns(name string,xb string);OKTime taken: 0.197 seconds

hive

大数据

sql

原创 2021-08-05 13:54:30 1063 阅读

Spark SQL运行原理解析

Spark SQL和mysql、hivesql从SQL规范来说都一样引擎：sparksql底层执行是spark，执行效率高，分布式mysql底层执行是InnoDB，当然还有其他的引擎，单节点执行hivesql底层执行默认是mapreduce，也可以更换为执行速度更快的tez，分布式对于sql语句来说，都是共同的例：select id ,name,age from stude...

spark

大数据

hive

mysql

sql

原创 2021-08-05 13:54:25 1801 阅读

ambari集群安装hdp

接上篇《ambari集群搭建详细步骤》说明：ambari2.6.5和ambari2.7.5的页面不一样集成安装向导Get Started 开始 Select Version 选择版本 Install Options

大数据

ambari

hdp

mysql

数据库

原创 2021-08-05 13:52:36 1229 阅读

mysql数据批量导入clickhouse

clickhouse准备本地表create table student on cluster luopc_mpp_cluster

大数据

clickhouse

数据

公众号

插入数据

原创 2021-08-05 13:50:45 1818 阅读

大数据之kylin——与zookeeper通信问题

解决办法：#配置zookeeperkylin.env.zookeeper-connect-string=master:2181

kylin

zookeeper

大数据

java

apache

原创 2021-08-05 13:50:12 622 阅读

全网最详细的ambari集群搭建详细步骤

1、服务器环境说明集群三台节点可以互相访问使用root用户配置免密 centos7 ambari-2.6.2.2 hdp-2.6.5我的环境如下：

大数据

ambari

环境搭建

mysql

java

原创 2021-08-05 13:49:55 1553 阅读 1收藏

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

wx610b634747ec3的博客

【大数据采集工具-gobblin】

apache软件下载地址

hadoop之yarn

hive之udf函数开发

Hadoop核心HDFS——HDFS写流程和读流程

Hadoop核心HDFS——HDFS概念及优缺点

使用idea数据开发中时区问题

waterdrop介绍

hadoop2.x、hive、hbase、zookeeper常用端口

hive开发之maven手动安装jar包

FlinkSQL建表语句与插入语句

ER详解及powerdesigner工具使用

waterdrop介绍

hadoop之namenode检查点机制

大数据hadoop常用端口-hadoop 3.x 通信端口

ambari安装包下载链接

hive添加字段

Spark SQL运行原理解析

ambari集群安装hdp

mysql数据批量导入clickhouse

大数据之kylin——与zookeeper通信问题

全网最详细的ambari集群搭建详细步骤