GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上, GraphX 通过引入一个新的图形抽象来扩展 Spark RDD :一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图形计算,GraphX 公开了一组基本运算符(例如: subgraph ,joinVertices 和 aggregateMessages)以及 Pregel
Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块,目前市面上最好的Spark2.x学习书籍!!! 扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架! 上一张我们学习了Apac ...
转载 2021-08-19 15:52:00
1698阅读
2评论
Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块,目前市面上最好的Spark2.x学习书籍!!! 10.5. 如何运行Spark SQL查询 Spark提供了几个接口来执行SQL查询。 10.5.1. Spark SQL ...
转载 2021-08-19 16:11:00
853阅读
2评论
《Hadoop权威指南》的10和11,基本都是讲集群的搭建、配置、目录结构等细节知识比较凌乱,在此将自己觉得重要的知识记录一下1. 为何不使用RAID?NameNode需要永久性储存文件元数据,可以使用RAID(磁盘阵列)做存储器但是DataNode不建议使用RAID做存储器,主要原因有三个: 原因一: HDFS的多副本已经能满足冗余需求,无需再使用RAID原因二: Hadoop的JBO
转载 2023-07-13 00:09:10
64阅读
下面这个就是yarn的高可用,ResourceManager可以有无数个 日记的管理方式发生了改变——单个namenode的模式,日记文件是直接写到namenode里面就可以了。现在要实现的是高可用的模式,高可用就需要两台namenode,而且管理模式是一样的,引入了两台那么日记文件就必须要实现共享与同步,既然要实现共享,一个是namenode之间点对点的连接,但是namenode的是高
转载 2023-07-13 16:38:12
61阅读
本节书摘来异步社区《HBase权威指南》一书中的11.5节,作者: 【美】Lars George 译者: 代志远 , 刘佳 , 蒋杰 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。1.5 HBase:Hadoop数据库看过BigTable的架构之后,我们可能会简单地认为HBase完全是Google的BigTable的开源实现。但是这个说法可能过于简单,因为两者之间还有
《Hadoop权威指南》知识点整理2MapReduce部分MapReduce应用开发_配置一个Configuration类的实例代表配置属性极其取值的一个集合,属性由String类型来命名,而值的类型任意,Configuration从使用简单结构名值对(name-value)的XML文件中读取其属性值。后添加到资源文件的属性会覆盖之前定义的属性。<!-- 配置文件 configuratio
转载 2023-07-13 16:37:12
50阅读
Spark The Definitive Guide(Spark权威指南) 中文版。本书详细介绍了Spark2.x版本的各个模块,目前市面上最好的Spark2.x学习书籍!!! 扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架! 如果您觉得作者翻译的内容 ...
转载 2021-08-19 15:56:00
1028阅读
2评论
Datasets是结构化api的基本类型。我们已经使用过DataFrames,它是Row类型的Datasets,可以跨Spark的不同语言使用。Datasets是一种严格意义上的Java虚拟机(JVM)语言特性,仅适用于Scala和Java。使用Datasets,您可以定义数据集中每行包含的对象。在 ...
转载 2021-08-19 16:12:00
315阅读
2评论
Spark The Definitive Guide Spark权威指南 中文版。关注公众号,阅读中文版的Spark权威指南,系统学习Spark大数据框架! Apache Spark是一个统一的分布式内存计算引擎,包括一组用于在计算机集群上进行并行数据处理的函数库。截止目前,Spark已经成为大数据 ...
转载 2021-08-19 15:48:00
742阅读
2评论
第一部分 MongoDB介绍第一 MongoDB简介1.1 易于使用1.2 易于扩展1.3 丰富的功能1.4 卓越的性能第二 MongoDB基础知识2.1 文档2.2 集合2.2.1 动态模式2.2.2 命名2.2.3 集合的创建、删除2.3 数据库2.3.1 数据库命名2.3.2 数据库的创建、使用和删除2.4 数据类型2.5 MongoDB shell2.5.1 简单的增、删、改、查:2
此系列翻译为个人原创的对照翻译,如有不当或错误,欢迎指正,知乎对markdown支持不全有碍于阅读体验,欢迎访问我的个人博客:SnailDove's blog。Chapter 23 Structured Streaming in Production 生产环境中的结构化流The previous chapters of this part of the book have cover
# 实现“MongoDB权威指南 3版”教程 ## 简介 作为一名经验丰富的开发者,帮助新手入门是我们的责任之一。本文将指导你如何实现“MongoDB权威指南 3版”的教程。 ## 整体流程 首先,让我们来看一下整个过程的步骤: | 步骤 | 操作 | | --- | --- | | 1 | 安装MongoDB | | 2 | 创建数据库和集合 | | 3 | 插入数据 | | 4 |
原创 2024-07-02 06:26:24
68阅读
# MongoDB 权威指南3版:深入理解MongoDB MongoDB,作为一种高性能、高可用的NoSQL数据库,已经成为许多企业和开发者的首选。在《MongoDB 权威指南3版》这本书中,作者深入讲解了MongoDB的各个方面,包括数据模型、查询语言、索引、聚合框架等。本文将结合书中内容,介绍MongoDB的基本概念、数据模型、查询语言、索引和聚合框架,并提供一些代码示例。 ## Mo
原创 2024-07-17 06:16:12
90阅读
首先推荐一款mongodb可视化工具:Robo 3t 下载链接为  https://robomongo.org/,然后瞅一眼数据库的使用排名,说明学习MongoDB是非常有必要的MongoDB 概念解析不管我们学习什么数据库都应该学习其中的基础概念,在mongodb中基本的概念是文档、集合、数据库,下面我们挨个介绍。下表将帮助您更容易理解Mongo中的一些概念:1、文
本章探讨了您和您的团队运行Spark应用程序所需的基础设施: 集群部署的选项 Spark的不同集群管理器 部署考虑事项和配置部署 在大多数情况下,Spark应该与所有受支持的集群管理器配合工作; 然而,自定义设置意味着需要理解每个集群管理系统的复杂性。最难的部分是如何选择集群管理器。尽管我们很乐意包 ...
转载 2021-08-19 16:18:00
248阅读
2评论
15中,您了解了Spark如何在集群上运行代码。现在,我们将向您展示开发一个独立的Spark应用程序并将其部署到集群上是多么容易。我们将使用一个简单的模板来实现这一点,该模板分享了一些关于如何构建应用程序的简单技巧,包括设置构建工具和单元测试。这个模板可以在本书的代码存储库中找到。这个模板实际 ...
转载 2021-08-19 16:17:00
211阅读
2评论
12探讨了单一RDD操作的基础。您学习了如何创建RDDs以及为什么要使用它们。此外,我们还讨论了map、filter、reduce以及如何创建函数来转换单个RDD数据。本章将介绍高级的RDD操作,并关注键值RDDs,这是一种用于操作数据的强大抽象。我们还讨论了一些更高级的主题,比如自定义分区,这 ...
转载 2021-08-19 16:15:00
1168阅读
2评论
7讨论了聚合单个数据集,这很有帮助,但通常情况下,您的Spark应用程序将汇集大量不同的数据集。因此,连接几乎是所有Spark工作负载的重要组成部分。Spark能够与不同的数据进行对话,这意味着您能够访问公司内的各种数据源。本章不仅介绍了Spark中存在哪些连接以及如何使用它们,还介绍了一些基本 ...
转载 2021-08-19 16:03:00
393阅读
2评论
本章正式介绍Spark可以使用的开箱即用的各种其他数据源,以及由更大的社区构建的无数其他数据源。Spark有6个“核心”数据源和数百个由社区编写的外部数据源。能够从所有不同类型的数据源进行读写,这可以说是Spark最大的优势之一。以下是Spark的核心数据源: CSV JSON Parquet OR ...
转载 2021-08-19 16:06:00
937阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5