一、 大数据平台组件搭建。 要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群。(提示如下,注意每一步骤的代码与结果需截图在报告中体现) 1.Spark安装包处理,解压到/usr/local目录下,在master节点通过命令“wget -P /opt http://datasrc.ti ...
转载 2021-10-22 09:36:00
115阅读
2评论
大数据 相关术语 术语 | 作用 | hadoop | 存储和处理大数据 MapReduce | hadoop自带的数据处理功能 spark | 推荐使用spark做hadoop的数据处理 hdfs | hadoop分布式文件系统 hive | 基于Hadoop的一个数据仓库工具,可以将结构化的数据
转载 2017-10-23 09:55:00
86阅读
2评论
大数据的技术还是要先提Google,Google 新三辆马车,Spanner, F1, DremelSpanner:高可扩展、多版本、全球分布式-
原创 2023-07-07 17:48:23
92阅读
L查询功能,其本质是将SQL转换为MapReduce程序。:是Master节点,管理数据块映射,处理客户端的读写请求,配置副本策略,管理HDFS的名称空间;​ 1、spark rdd:弹性分布式数据集。
**软考大数据速记:解锁考试成功之门** 在信息技术迅猛发展的今天,软件行业作为国家经济发展的重要支柱,其从业人员的专业素养和技能水平越来越受到重视。软考,即计算机技术与软件专业技术资格(水平)考试,作为国家级的权威认证,对于提升个人技能、拓宽职业发展道路具有重要意义。然而,软考涉及的知识面广、专业性强,备考难度不容小觑。特别是对于大数据领域而言,繁杂的知识点往往让考生感到力不从心。此时,掌握
原创 2024-04-29 12:17:03
25阅读
本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据相关技术、算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全
转载 2023-12-06 20:33:17
75阅读
说起大数据,很多人都能聊上一会,但要是问大数据核心技术有哪些,估计很多人就说不上一二来了。从机器学习到数据可视化,大数据发展至今已经拥有了一套相当成熟的技术树,不同的技术层面有着不同的技术架构,而且每年还会涌现出新的技术名词。面对如此庞杂的技术架构,很多第一次接触大数据的小白几乎都是望而生畏的。其实想要知道大数据有哪些核心技术很简单,无非三个过程:取数据、算数据、用数据。这么说可能还是有人觉得太空
转载 2024-01-01 06:15:19
66阅读
关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:大数据相关岗位介绍(https://www.ikeguang.com/?p=1950)主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责,相关岗位的信息是对各个招聘网站中的一些要求做了一个总结一、大数据开发工程师:1.要求编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好
大数据相关软件安装 1. nginx 安装 2. 3.
原创 2021-08-04 16:53:12
258阅读
下载链接(待定)
原创 2021-08-04 16:53:13
186阅读
预计到2020年,每人将产生1.7兆每秒的数据量。那将有很多信息要处理。一方面,对很多公司来说,大数据是一个游戏规则的改变者,它提供了我们过去从未开启的洞察力。另一方面,如果没有合适的工具,就不可能利用这些信息。为了充分利用任何大数据战略,公司获得管理、挖掘和理解数据的创新解决方案至关重要。幸运的是,有很多开发人员正在创建我们需要的软件来布署数据环境。有鉴于此,我们列出了十个必备工具。1Elast
组件总览 Zookeeper部署 创建目录 解压 环境变量 配置服
原创 2022-05-29 00:07:10
902阅读
Spark安装地址1.官网地址http://spark.apache.org/2.文档查看地址https://spark.apache.org/docs/2.1.1/3.下载地址https://spark.apache.org/downloads.html
原创 2021-09-01 16:08:47
124阅读
大厂大数据相关架构文章一、滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇一、滴滴实时计算发展之路及平台架构实践zhisheng_tian:滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇58技术 ,作者何良均/张祥:58HBase平台实践和应用—时序数据库篇...
原创 2021-06-05 14:45:25
305阅读
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired by awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contri...
原创 2021-09-01 16:31:17
676阅读
在信息技术迅猛发展的今天,大数据已经成为了各行各业不可或缺的一部分。而对于那些希望在信息技术领域有所建树的专业人士来说,软考(计算机软件专业技术资格和水平考试)则是一个展示自己实力、提升技术水平的重要平台。本文将结合大数据相关知识,探讨软考在大数据时代的意义,以及如何通过软考提升自己在大数据领域的竞争力。 一、大数据时代的挑战与机遇 随着互联网的普及和数字化进程的加速,大数据已经成为了新时代的
原创 2024-05-06 14:57:21
93阅读
架构选择:简单离线场景用 “离线批处理架构”,纯实时场景用 “实时流处理架构”,复杂业务优先选 “批流融合架构”(Flink+Spark 组合)。技术选型:采集用 Flume/Kafka,存储用 HDFS/HBase/Redis,计算用 Spark(离线)+Flink(实时),应用用 Tableau/Grafana,这套组合是企业最通用、性价比最高的方案。业务驱动:所有设计和开发都围绕业务价值,避免技术炫技。分层清晰:严格按 ODS→DWD→DWS→DM 分层,每层职责单一。数据质量优先。
转载 8小时前
359阅读
笔者邀请您,先思考:1 你熟悉和理解机器学习那些专业术语? 举例说明分类器将未标记的实例映射到类的程序或函数称为分类器。 混淆矩阵混淆矩阵,也称为关联表或错误矩阵,用于可视化分类器的性能。 矩阵的列表示预测类的实例,行表示实际类的实例。 (注意:也可以反过来。)对于二进制分类,表有两行两列。 例如:?...pass子类 继承自 父类,可以直接 享受 父类中已经封装好的方法,不需要再次开发 子类 中
# Java文章关键大数据推荐实现流程 ## 1. 简介 在这篇文章中,我们将介绍如何使用Java实现文章关键大数据推荐功能。这个功能可以帮助用户根据已有的文章内容,推荐相关的关键,从而提供更好的用户体验。 ## 2. 实现步骤 下面是实现这个功能的具体步骤,我们可以使用表格来展示每个步骤: | 步骤 | 描述 | | --- | --- | | 1. 数据收集 | 从各个渠道收集
原创 2023-07-23 13:23:18
74阅读
一、本课程是怎么样的一门课程(全面介绍)   1.1、课程的背景           “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。 “大数据” 其实离我们的生活并不遥远,大到微博的海量用
  • 1
  • 2
  • 3
  • 4
  • 5