一、 大数据平台组件搭建。 要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群。(提示如下,注意每一步骤的代码与结果需截图在报告中体现) 1.Spark安装包处理,解压到/usr/local目录下,在master节点通过命令“wget -P /opt http://datasrc.ti ...
转载
2021-10-22 09:36:00
115阅读
2评论
大数据 相关术语 术语 | 作用 | hadoop | 存储和处理大数据 MapReduce | hadoop自带的数据处理功能 spark | 推荐使用spark做hadoop的数据处理 hdfs | hadoop分布式文件系统 hive | 基于Hadoop的一个数据仓库工具,可以将结构化的数据
转载
2017-10-23 09:55:00
86阅读
2评论
说大数据的技术还是要先提Google,Google 新三辆马车,Spanner, F1, DremelSpanner:高可扩展、多版本、全球分布式-
原创
2023-07-07 17:48:23
92阅读
L查询功能,其本质是将SQL转换为MapReduce程序。:是Master节点,管理数据块映射,处理客户端的读写请求,配置副本策略,管理HDFS的名称空间; 1、spark rdd:弹性分布式数据集。
原创
2023-06-07 09:50:16
71阅读
目录1 梳理单词计数的执行流程2 实战WordCount3 web界面中查看任务执行情况1 梳理单词计数的执行流程上面的是单个文件的执行流程,有一些现象看起来还是不明显 下面我们来看一个两个文件的执行流程2 实战WordCount前面我们通过理论层面详细分析了单词计数的执行流程,下面我们就来实际上手操作一下。大致流程如下:第一步:开发Map阶段代码第二步:开发Reduce阶段代码第三步:组装Job在idea中创建WordCountJob类添加注释,梳理一下需求:需求:读取hdf
原创
2021-03-14 18:20:07
372阅读
项目结构
pom.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="h
转载
2019-01-03 22:48:00
76阅读
2评论
关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:大数据相关岗位介绍(https://www.ikeguang.com/?p=1950)主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责,相关岗位的信息是对各个招聘网站中的一些要求做了一个总结一、大数据开发工程师:1.要求编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好
原创
2021-11-25 22:12:32
10000+阅读
大数据相关软件安装 1. nginx 安装 2. 3.
原创
2021-08-04 16:53:12
258阅读
说起大数据,很多人都能聊上一会,但要是问大数据核心技术有哪些,估计很多人就说不上一二来了。从机器学习到数据可视化,大数据发展至今已经拥有了一套相当成熟的技术树,不同的技术层面有着不同的技术架构,而且每年还会涌现出新的技术名词。面对如此庞杂的技术架构,很多第一次接触大数据的小白几乎都是望而生畏的。其实想要知道大数据有哪些核心技术很简单,无非三个过程:取数据、算数据、用数据。这么说可能还是有人觉得太空
转载
2024-01-01 06:15:19
66阅读
本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术、算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全
转载
2023-12-06 20:33:17
75阅读
下载链接(待定)
原创
2021-08-04 16:53:13
186阅读
1.第一:public['pʌblik] 公共的,公用的static['stætik] 静的;静态的;静止的void:[vɔid] 空的main:[mein] 主要的 重要的class:[klɑ:s] 类system:['sistəm] 系统 方法out:[aut] 出现 出外print:[print ] 打印eclipse:[i'klips] java编...
原创
2021-06-21 16:24:17
163阅读
1.第一:public['pʌblik] 公共的,公用的static['stætik] 静的;静态的;静止的void:[vɔid] 空的main:[mein] 主要的 重要的class:[klɑ:s] 类system:['sistəm] 系统 方法out:[aut] 出现 出外print:[print ] 打印eclipse:[i'klips] java编...
原创
2022-03-23 15:34:43
106阅读
需求:计算单词在文档中出现的次数,每出现一次就累加一次 遇到的问题 这个问题是需要把从文件中读取的内容放入list 代码如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/
转载
2019-02-18 22:15:00
105阅读
2评论
组件总览 Zookeeper部署 创建目录 解压 环境变量 配置服
原创
2022-05-29 00:07:10
908阅读
Spark安装地址1.官网地址http://spark.apache.org/2.文档查看地址https://spark.apache.org/docs/2.1.1/3.下载地址https://spark.apache.org/downloads.html
原创
2021-09-01 16:08:47
124阅读
大厂大数据相关架构文章一、滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇一、滴滴实时计算发展之路及平台架构实践zhisheng_tian:滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇58技术 ,作者何良均/张祥:58HBase平台实践和应用—时序数据库篇...
原创
2021-06-05 14:45:25
305阅读
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired by awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contri...
原创
2021-09-01 16:31:17
678阅读
在信息技术迅猛发展的今天,大数据已经成为了各行各业不可或缺的一部分。而对于那些希望在信息技术领域有所建树的专业人士来说,软考(计算机软件专业技术资格和水平考试)则是一个展示自己实力、提升技术水平的重要平台。本文将结合大数据相关知识,探讨软考在大数据时代的意义,以及如何通过软考提升自己在大数据领域的竞争力。
一、大数据时代的挑战与机遇
随着互联网的普及和数字化进程的加速,大数据已经成为了新时代的
原创
2024-05-06 14:57:21
93阅读
架构选择:简单离线场景用 “离线批处理架构”,纯实时场景用 “实时流处理架构”,复杂业务优先选 “批流融合架构”(Flink+Spark 组合)。技术选型:采集用 Flume/Kafka,存储用 HDFS/HBase/Redis,计算用 Spark(离线)+Flink(实时),应用用 Tableau/Grafana,这套组合是企业最通用、性价比最高的方案。业务驱动:所有设计和开发都围绕业务价值,避免技术炫技。分层清晰:严格按 ODS→DWD→DWS→DM 分层,每层职责单一。数据质量优先。