安装完CDH后,发现里面的东东实在是太多了,对于一个初学大数据的来说就犹如刘姥姥进了大观园,很新奇,这些东东每个单拿出来都够喝一壶的。接来来就是一步一步地学习了,先大致学习了每个模组大致做什么用的,然后再按模组一个一个细致学习,并实际演练。我给自已的第一个课题是如何将Sql Server的一个表数据导入到HDFS中,网上有很多这样的教程,不过我觉得最有用的还是官网的User Guide,网上的教程
转载 2023-07-13 01:32:30
217阅读
一个多层的大数据平台技术概览 目录技术全貌1. 采集层和传输层SqoopFlumeCanalLogstashKafkaRocketMQ2. 存储层HBaseAlluxio/Redis/IgniteTiDBHDFSCephKudu3. 计算层HiveKylinDruid 为监控而生的数据库连接池。SparkSQLImpalaSparkStormFlin
转载 2024-05-14 16:53:24
153阅读
有新的列式存...
转载 2023-05-11 11:51:14
330阅读
ETL职位现状和未来发展。
原创 2022-12-07 00:28:46
102阅读
1.前言        随着国务院印发十四五规划关于数字经济规划和数字信息化建设的推进(如下图1所示)。大量的数字化的产品将产生海量的数据,因此近些年大数据技术越来越被大家重视起来。图1  国务院十四五数字经济规划        
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据技术,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。童鞋们可能一下子就慌了,像学Java的也就SSM、Springboot、Spring Cloud、MySQL这些,线...
原创 2021-07-09 15:59:55
1609阅读
相信很多学Java的同学都有想转大数据或者学大数据的想法,但是一看到网上那些大数据技术,就一脸懵逼,什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。童鞋们可能一下子就慌了,像学Java的也就SSM、Springboot、Spring Cloud、MySQL这些,线...
原创 2022-01-12 15:32:35
1044阅读
在现代数据驱动的技术环境中,“Python大数据技术”正成为许多企业和开发者的核心关注。使用Python进行大数据处理,开发者通常依赖于多种工具和库来搭建高效的数据处理管道。然而,面对复杂的数据清洗、转化和可视化任务时,问题时有发生,影响了工作流的高效性。 ## 问题背景 这是一个云计算平台的用户场景,用户利用Python的大数据技术处理海量传感器数据以进行分析。数据规模可用以下数学模型描
Kettlehttp://www.kettle.net.cn/ Flumehttp://flume.apache.org/ dataXhttps://github.com/alibaba/DataX https://www.oschina.net/p/datax?hmsr=aladdin1e1 埋点 hivehttps://hive.apache.org
原创 2021-09-22 10:47:29
335阅读
Kettle​ Flume​​http://flume.apache.org/​​ dataX 埋点 hive​ 安装tengine#下载链接http://tengine.taobao.org/download.html#所需依赖yum install gcc openssl-devel pcre-devel zlib-devel -y ./configure 需要先安装​​gcc​​:yum
原创 2022-01-18 14:39:35
187阅读
本文是我即将由嵌入式底层驱动行业转入大数据研究领域的综述文章,案例摘自《程序员》电子期刊,由于初学者知识面较窄,查看文献量较少,因此后续还会在此基础上,继续跟踪并深入研究,为论文撰写积累知识储备和素材。1. 大数据技术的应用领域2. 大数据技术的几个应用案例3. 大数据技术的问题与挑战4. 大数据技术的前景展望1.大数据技术的应用领域1.1 大数据研究的四项关键技术(1)数据采集、预处理与存储技术
# Java大数据技术 随着互联网的快速发展,数据量呈指数级增长。大数据技术应运而生,成为了企业解决海量数据处理和分析的重要工具。而Java作为一门优秀的编程语言,也在大数据领域发挥着重要的作用。本文将介绍Java大数据技术的一些基本概念,并提供一些代码示例。 ## 1. Hadoop Hadoop是Apache基金会开发的一个分布式计算框架,用于存储和处理大规模数据集。它基于Googl
原创 2023-08-02 18:06:07
207阅读
一、Hive基本概念1.1 什么是Hive1) hive简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2) Hive本质:将HQL转化成MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是MapReduce (3)执
“ 大数据时代,熟练使用SQL是基础中的基础,而Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户快速、简便查询海量数据。”01 Hive是什么Hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据。举例:tel up
转载 2023-10-10 14:17:50
87阅读
Hive 安装环境准备2.1 Hive 安装地址2.2 Hive 安装部署1)Hive 安装及配置(1)把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/opt/software 目录下(2)解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面[atguigu@hadoop102 software]$ tar -
一、Hive背景介绍    Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了hive框架,毕竟世界上会sql
大数据知识点全讲解之HiveHive简介Hive结构Hive与Hadoop的关系Hive安装Hive交互方式Hive数据类型Hive的基本数据类型Hive的复杂数据类型Hive数据结构Hive和BeelineHive的基本操作数据库表操作内部表操作外部表操作分区表操作分桶表操作修改表结构 Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供
转载 2023-07-12 20:01:38
63阅读
、前言大家下午好!我是来自唯品会基础架构部的潘卫华。今天我们来跟大家一起看看在大数据领域里面,Golang的应用。我们知道在大数据领域里,Java 和 Scala 语言基本是处于统治地位的,主要是因为像 Hadoop 以及基于 Hadoop 的一些工具,比如 HBase/Hive/Spark/Flink 等等,这些都是基于 Java 或者 Scala开发,他们提供 的api 也是主要给 Java
转载 2024-03-13 18:27:44
76阅读
二、数据基本运算(一)注释 1.单行注释        # 以#号开头2.多行开头        """以三个双引号或单引号"""(二)变量与常量1.变量名--真实内存地址的别名2.赋值号( = )将右边对象的地址复制给左边内存空
这不马上要到金三银四了吗,最近小编整理了一套 5000 页的 Java 技术的学习手册, 新鲜出炉!此手册内容专注 Java技术,包括 JavaWeb,SSM,Linux,Spring Boot,MyBatis,MySQL,Nginx,Git,GitHub,Servlet,IDEA,多线程,集合,JVM,DeBug, Dubbo,Redis,算法,面试题等相关内容。IDEA DeBug调试技巧一
转载 2023-11-28 16:18:01
52阅读
  • 1
  • 2
  • 3
  • 4
  • 5