kudu介绍Kudu是运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。kudu的优势1)一个table由多个tablet组成,对分区查看、扩容和数据高可用支持非常好 2)支持update和upsert操作。 3)与presto集成或spark集成后(dataframe)可通过标准的sql操作,使用起来很方便 4)可与
转载 2024-09-26 22:12:06
16阅读
初次运行Git前需要先对Git的工作环境进行配置(如果之前已经设置过那么就不需要再设置一次),采用的工具是git config。主要设置用户信息即可,包括用户名和邮箱$ git config --global user.name "用户名" $ git config --global user.email 自己的邮箱设置结束后可以通过以下指令查看配置信息$ git config --list 2
目录1. 超级pom文件2. Maven-全局范围setting.xml和用户范围setting.xml区别3. maven中profile元素的作用意义和用法4. maven下载资源时,仓库的优先级5. 镜像的配置及原理我们知道只有当资源下载到本地仓库时,才会被maven使用。由于原始的本地仓库是空的, Maven必须至少知道一个远程仓库才能在执行命令时下载需要的构件。本地仓库默认地址为~/.m
转载 2024-04-29 08:38:46
99阅读
 默认情况下Docker的存放位置为:/var/lib/docker可以通过下面命令查看具体位置:sudo docker info | grep "Docker Root Dir"通过软连接修改:首先停掉Docker服务:systemctl restart docker或者service docker stop然后移动整个/var/lib/docker目录到目的路径:cp /var/li
转载 2023-06-07 16:57:52
928阅读
xargs还有指定参数位置的作用。假设我们要将目录下所有的.py文件放到Python目录中去,可以使用命令find . -name '*.py' | xargs -I {} mv {} ./Python参数-I指定了管道前命令作为参数所应该在管道后面命令的位置
转载 2019-03-15 10:14:00
281阅读
2评论
阅读本文可以带着下面问题:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = totalSize / mapred.
转载 2024-01-04 22:32:07
223阅读
## 在Hive中指定Spark引擎的位置 在Hive中,我们可以通过设置一些参数指定使用Spark引擎进行任务的执行。这样可以提高任务的性能和效率,特别是对于一些复杂的查询和计算任务来说。在本文中,我们将介绍如何在Hive中指定Spark引擎的位置,并提供一些代码示例。 ### 1. 设置Hive配置参数 首先,我们需要设置一些Hive的配置参数,来指定Spark引擎的位置。我们可以通过
原创 2024-07-02 05:47:20
64阅读
apt-get 是linux的一条指令,主流的linux版本Debian和ubuntu都使用apt-get来安装软件。那么,需安装的软件都放在哪里呢???apt-get 利用软件安装源来安装软件,其软件安装源放置在/etc/apt/sources.list文件中。也就是说,当我们使用apt-get install来安装某个软件时,系统会通过这个文件上的软件安装源去对应的地址上去找,所以如
Spark:关于yarn中的AM的启动流程问题的探索Spark中的三种分布式集群部署模式:Spark:Yarn三大组件(模块)ResourceManagerNodeManagerApplicationMaster需再次明确的概念:AMSpark on YARN的两种模式具体阐述YARN-Cluster模式的AM执行流程:我自己看完的总结: Spark中的三种分布式集群部署模式:当以分布式集群部署
转载 2023-12-15 05:12:19
70阅读
1.hive执行引擎Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。默认情况下,Hive on Spark 在YARN模式下支持Spar
转载 2024-03-10 23:22:55
475阅读
一、使用之前,我们先来掌握3个东西是用来干什么的。npm: Nodejs下的包管理器。webpack: 它主要的用途是通过CommonJS的语法把所有浏览器端需要发布的静态资源做相应的准备,比如资源的合并和打包。vue-cli: 用户生成Vue工程模板。(帮你快速开始一个vue的项目,也就是给你一套vue的结构,包含基础的依赖库,只需要 npm install就可以安装)开始: 如图,下
nohup spark-submit --master yarn --deploy-mode cluster --jars /xx/xx/xx/xx.jar --class com.spark_kudu_parquet.spark_kudu --name spark_kudu --driver-memory 2g --driver-cores 2 --executor-memory
转载 2023-10-18 23:31:57
314阅读
作者 | Damji,et al.翻译 | 吴邪 大数据4年从业经验,目前就职于广州一家互联网公司,负责大数据基础平台自研、离线计算&实时计算研究校对 | gongyouliu编辑 | auroral-L全文共14319字,预计阅读时间80分钟。第三章  Apache Spark结构化API1.  Spark:什么是RDD?2.  结构化Spark 
一、使用 Docker 镜像Docker 运行容器前需要本地存在对应的镜像,如果本地不存在该镜像,Docker 会从镜像仓库下载该镜像。 下面将介绍更多关于镜像的内容,包括:从仓库获取镜像; 管理本地主机上的镜像; 介绍镜像实现的基本原理。 获取镜像获取镜像 从 Docker 镜像仓库获取镜像的命令是 docker pull 。其命令格式为: docker pull [选项] [
提供一个API供使用者调用,大抵需求如下:输入某用户的位置(经纬度),提交到Web服务器,再把任务(找出该用户附近一公里内的商城推荐)提交到Spark集群上执行,返回计算结果后再存入到redis数据库中,供后台调用返回结果给使用方。网上关于这方面的资料大抵是基于spark-assembly-1.4.1-hadoop2.6.0.jar,而我们这边的环境是spark2.0-Hadoop2.6.0,版本
 一、对位置规则的阐述       概括来说,Python函数调用时,实参表由左到右就是简单的两个部分funcname(【位置实参】,【关键字实参】)     注意这个前后顺序是严格的,两个部分都可以缺省,但不能相互交错!(超级重要)   函数定义时,所有形参由逗号分隔,这些变量用于接收函数调用时传
k8s
k8s
转载 2020-05-13 18:00:43
1946阅读
# Docker Push:指定仓库的语法及参数 Docker作为一种广泛使用的容器化技术,它允许开发者和运维人员快速构建和部署应用程序。在Docker的使用过程中,图像库(Registry)是一个常见的概念,Docker Hub是最著名的公共Docker仓库。而Docker Push命令则是用来将本地Docker镜像推送到指定仓库的工具。 ## 基本语法 Docker Push的基本语法
原创 2024-10-31 07:54:15
199阅读
# 使用Spark DataFrame替换列中指定位置的值 在大数据处理的场景中,Apache Spark常被用作数据处理的强大工具。Spark DataFrame是Spark为结构化数据提供的一种高级抽象,方便用户进行各种数据操作。本文将介绍如何在Spark DataFrame中替换列中指定位置的值,并提供代码示例。 ## Spark DataFrame简介 Spark DataFrame
原创 2024-10-14 06:16:18
39阅读
# Python在文件指定位置写入参数的实现方法 ## 1. 总览 在本文中,我将教会你如何使用Python在文件的指定位置写入参数。这个过程可以分为以下几个步骤: 1. 打开文件 2. 读取文件内容 3. 在指定位置插入参数 4. 写入修改后的文件内容 5. 关闭文件 下面将详细介绍每个步骤的具体操作,以及使用的代码。 ## 2. 打开文件 在第一步中,我们需要打开一个文件。你可以使
原创 2023-07-21 11:32:19
267阅读
  • 1
  • 2
  • 3
  • 4
  • 5