背景 公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。 方案
转载 2023-08-21 21:30:51
113阅读
背景公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。方案日志数据不能直接发送给
转载 2023-07-12 09:23:25
77阅读
一、需求描述由于本人主要从事大数据可视化的工作,就少不了对海量数据的分析,但是我们并不是数据的生产来源,数据来自有大数据可视化分析需求的用户,所以实际业务中往往会遇到大量数据从传统存储方式(关系型数据库、文件存储等)到数据仓库的迁移,本次就以实现如何基于kafka从oracle到hive仓库做数据的迁移工作。 本次操作的数据量为空间坐标数据,原始数据存储在oracle中,大概10亿条左右,通过本
转载 2023-10-08 15:54:39
184阅读
目录?一、背景?二、具体配置及代码?2.1、源码?2.2、hive 配置?2.2.1、hive-env.sh?2.2.2、hive-site.xml?三、测试环境、验证?3.1、通过beeline创建库及表?3.2、查看数据库参考 ?一、背景公司开发了一套元数据管理系统,市面上是有开源元数据管理项目的,比如前端时间研究到的apache atlas,感觉还是比较复杂的,如果想复用其某一块代码,感觉
一般Flume采集日志source有两种方式:1.Exec类型的Source 可以将命令产生的输出作为源,如:a1.sources.r1.type = exec a1.sources.r1.command = ping 10.3.1.227 //此处输入命令2.Spooling Directory类型的 Source 将指定的文件加入到“自动搜集 ”目录中。flume会持续监听这个目录,把文件当做
背景SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果。故:采用导出功能,导出数据到Text文本(文本>40G)中。因上原因,所以本次的实验样本为:【数据量:61w条,文本大小:74M】选择DataX原因试图维持统一的异构数据源同步方案。(其实行不通)试图进入Hive时,已经是压缩ORC格式,降低存储大小,提高列式查询效率,以便后续查询HIVE数据导入KUDU时提高效率(
1、首先打开虚拟机,运行一下两条命令打开hadoop:start-dfs.shstart-yarn.sh  2、进入hive目录下,启动metastorehive --service metastore3、使用jdbc访问hive,启动 hiveserver2bin/hive --service hiveserver24、启动 beeline 客户端(需要多等待一会)bin/b
转载 2023-07-03 16:29:35
85阅读
数据的导入导出1.数据的导入1 load语法:load data [local] inpath '数据的 path' [overwrite] into table table_name [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:
转载 2023-07-12 09:08:19
182阅读
全量数据导入kudu时,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表    由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;    每次导完到临时表,需要做invalidate metadata 表操作,不然后面直接导入kudu的时候会查不到数据;    初始化好数据得执行compute
转载 2023-07-12 21:13:06
92阅读
## 从KafkaHive:实时数据处理的完美组合 在当今的互联网时代,数据处理变得越来越重要。实时数据处理成为各行业研究和分析的重要手段之一。KafkaHive作为两个非常流行的开源工具,在实时数据处理中发挥着重要作用。Kafka是一个分布式流处理平台,而Hive是一个数据仓库基础设施,可以方便地进行数据查询和分析。本文将介绍KafkaHive的基本概念,并演示如何将二者结合起来进行实时
原创 4月前
10阅读
Spark对接Hive(必会)Spark操作Hive相比较Hive执行的MR,效率要高,因为Spark是基于DAG有向无环图,实现的内存迭代式计算,MR是基于磁盘计算引擎,相比Spark的迭代计算,要慢的多,并且磁盘IO太大,没有太好的优化,Spark是内存处理,速度要快的多,所以使用Spark对接Hive已经成为主流,例如:SparkSQL来实现的数仓操作实现方式:将Hive中的hive-sit
转载 2023-08-24 10:17:36
65阅读
# KafkaHive:实时数据流处理的完美组合 ![journey](mermaid journey title KafkaHive的实时数据流处理 section 采集数据 Kafka --> Hive: 将数据实时发送到Kafka section 数据流处理 Hive --> Hive: 创建外部表 Hive --> Hive: 创建内部表
原创 2023-10-03 08:34:06
60阅读
业务分析:1.能够导入excel文件类型                  2.读取该上传文件内容                  3.内容展示在页面上,可修改,可勾选保存,保存时对内容进行校验。代码实现:jsp前台页
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等)系统说明搭建步骤详述一、节点基础配置二、Hadoop安装和配置三、Hive安装和配置四、ZooKeeper安装和配置五、Kafka安装和配置六、Flume安装和配置七、Hbase安装和配置八、Spark安装和配
转载 2023-07-13 16:32:22
79阅读
文章目录问题背景解决过程注意事项问题背景kafka数据定时导入hive,后续做数据清洗: flume,confulent都需要单独部署服务,比较繁琐。调查其他可选方案,参考以下文章:参考资料 综合比较,camus 简单,比较方便接入。主要分两步: 1、采用mapreduce过程处理数据从kafka导入hadoop 2、hadoop数据接入hive管理。解决过程1、下载源码,本地构建jar包。参考
原创 2021-04-15 09:55:38
1268阅读
用了几次impala + kudu做大数据实时计算场景,一路踏坑过来,这里分享踏坑经验一开始需要全量导入kudu,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;每次导完到临时表,需要做invalidate metadata 表操作,不然后面直
1、如何获取 topic 主题的列表  bin/kafka-topics.sh --list --zookeeper localhost:21812、生产者和消费者的命令行是什么?生产者在主题上发布消息:bin/kafka-console-producer.sh --broker-list 192.168.43.49:9092 --topicHello-Kafka注意这里的 IP 是 server
转载 2023-10-19 11:13:18
69阅读
# 如何在 Python 中导入 Kafka 作为一名经验丰富的开发者,你需要教会一位刚入行的小白如何在 Python 中导入 Kafka。下面是整个过程的流程以及每一步需要做的事情。 ## 流程 | 步骤 | 描述 | | --- | --- | | 1 | 安装 kafka-python 库 | | 2 | 创建 Kafka 生产者 | | 3 | 发送消息到 Kafka 主题 | |
原创 6月前
25阅读
kafka是近年来关注度飞速上升并得到越来越广泛应用的一个产品,本文将介绍一下它的实现原理以及在我们邮箱服务中的应用。1.1 Kafka – 官方定义根据官网的介绍,Kafka是一个提供统一的、高吞吐、低延迟的,用来处理实时数据的流式平台,它具备以下三特性: 1、流式记录的发布和订阅:类似于消息系统。 2、存储:在一个分布式、容错的集群中安全持久化地存储流式数据。3、处理:编写流处理应用程序,对实
Hive 导入 parquet 数据步骤如下:查看 parquet 文件的格式构造建表语句倒入数据一、查看 parquet 内容和结构下载地址命令查看结构:java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30查看内容:java -jar parquet-
转载 2023-10-01 09:30:12
254阅读
  • 1
  • 2
  • 3
  • 4
  • 5