最近想将spark升级到1.0,看了看官网的介绍,1.0的变动还是蛮大的,包括提交的方式,加入对kafka,flume等的支持。于是官网下载1.0的source自己用maven编译。    首先需要升级下scala,0.9对应的是scala-2.9.x,1.0需要升级到scala-2.10.x。然后按照spar            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2014-06-20 17:26:10
                            
                                2019阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            【一】Cloudera Manager  安装 一\\系统环境准备(三台机器server1,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-07 08:36:45
                            
                                724阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低 2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hort            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2019-06-04 16:23:00
                            
                                204阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低 2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hort            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-01-13 15:08:00
                            
                                238阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            开始学习.NET5.NET5的下载安装配置IDE的安装配置Visual StudioVS Code1.VS Code下载和语言包安装2.安装C# 插件和创建.NET5项目创建运行Console项目参考连接总结 .NET5的下载安装配置虽然有6.0的预览版本,但是我还是决定先使用5.0的作为基础学习。 我使用的OS是Windows10,选择对应的软件包下载,按照MS的设想,把用户当白痴,无脑下一步            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-29 16:04:13
                            
                                756阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            /usr/share/cmf/uninstall-cloudera-manager.sh            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-05 15:06:34
                            
                                202阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             CDH6.2离线安装(整理版)1.概述    CDH,全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,提供了Hadoop的核心(可扩展存储、分布式计算),最为重要的是提供基于web的用户界面。CDH的优点:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-12 09:05:30
                            
                                116阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第一步:下载对应的HBase的安装包 所有关于CDH版本的软件包下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/ HBase对应的版本下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压 cd /export/softwares rz+            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-27 16:59:04
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            转自:http://blog.51cto.com/teacheryan/1912116 本文介绍如何搭建cloudera manager去接入已有hadoop组件(cdh)。一、下载必备文件:1.cloudera manager:http://archive-primary.cloudera.com/cm5/cm/5/大部分公司内大数据集群环境都无公网访问权限,针对当前集群系统环境和想要            
                
         
            
            
            
            一 docker部署cdh-5.x cloudera/quickstart cloudera/clusterdock 二 docker部署cdh-6.x cdh安装包下载docker拉取centos7镜像 docker pull centos:7.7.1908启动docker container 2.1 设置网桥 docker network create --subnet=172.18.0.0/            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-13 15:36:59
                            
                                185阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、CDH介绍二、为什么选择CDH?三、CDH的版本选择  四、安装准备1.节点准备2.节点规划3.下载parcels文件4.tarball下载5.准备以下内容:五、系统初始化1.关闭防火墙(3个节点)2.配置主机名(3个节点)3.修改hosts文件(3个节点)4.配置免密登录(3个节点)5.安装JDK(3个节点)6.检查Python版本(3个节点)7.检查服务器之间的时间是否同步(3个节点)            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-18 16:33:08
                            
                                146阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            MapReduce跑得慢的原因MapReduce程序的效率瓶颈在于两个方面:一、 计算机性能CPU、内存、磁盘健康、网络二、 I/O操作数据倾斜map和reduce数量设置不合理reduce等待时间过久小文件过多大量不可拆分的超大文件spill次数过多merge次数过多我们优化的重点是I/O操作MapReduce优化方法一、数据输入合并小文件:在执行mr任务前将小文件进行合并,因为大量的小文件会产            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-05 14:54:08
                            
                                44阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            windows配置单机spark环境背景介绍:把python代码修改为pyspark,并在CDH集群上运行。 整个工作的流程大致如下:windows单机python代码,包括探索性数据分析、特征提取以及模型训练。在windows上配置PySpark环境,并将python代码改为pyspark配置CDH集群的python环境,提交测试在Spark集群上训练模型,以及模型工程化做预测本文主要介绍第二部            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-30 21:50:13
                            
                                179阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.硬盘挂载(每台服务器上都操作)1.1 检查阿里云服务器数据盘情况fdisk -l1.2 挂载阿里云数据硬盘fdisk /dev/vdb输入"fdisk /dev/vdb",然后根据下图的提示,输入n,p,1,回车,回车,wq,保存退出。 完毕之后输入fdisk -l1.3 格式化分区及挂载目录1.3.1 格式化挂载数据硬盘分区mkfs.ext3 /dev/vdb11.3.2 创建目录挂载如果我            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 14:55:59
                            
                                116阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            云技术新兴的概念太多,让我们无法使用,这里说一下什么是CDHCDH版本衍化hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。Cloudera公司的发行版,我们将该版本成为CDH(Cloudera Distribution Hadoop)。截止目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4和Apache            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-19 15:16:54
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            安装环境如下:操作系统:CentOs 6.5Hadoop 版本:cdh-5.3.0
Spark 版本:cdh5-1.2.0_5.3.0
1. 安装首先查看 Spark 相关的包有哪些:  $ yum list |grep spark
spark-core.noarch                 1.2.0+cdh5.3.0+364-1.cdh5.3.0.p0.36.el6 @cdh
spar            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-08 12:27:57
                            
                                177阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、Hadoop大数据平台1、Hadoop 发行版(1) 完全开源的原生的Apache Hadoop(2) Cloudera与Hortonworks公司的CDH和HDP:在Cloudera和Hortonworks合并后,Cloudera公司推出了新一代的数据平台产品CDP Data Center(以下简称为CDP),从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只能通过            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-21 14:52:25
                            
                                273阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            安装准备介质准备本文采用parcel包方式安装,需要下载相关的3个文件。parcel包地址:http://archive-primary.cloudera.com/cdh5/parcels/5.3.2/需要下载如下三个文件如果采用rpm方式安装,地址为:http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.3.2/系统配置a) 用户创建CDH            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 15:35:46
                            
                                86阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            CDH是Cloudera的开源平台发行版,通过将Hadoop与其他十几个开源项目集成,为企业大数据业务提供服务。在CDH开源大数据方案中,是通过多个互相独立的组件提供相应的能力,每个场景需要一个组件独立交付,为了实现不同业务需求,通常用户需要部署多个不同的产品。比如为了做数仓需要Hive,为了做精确查询需要Hbase,为了做搜索业务需要Elasticsearch等等。那客户为了实现图计算和分析,需            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-07 15:09:47
                            
                                33阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            If the first Snow comes in this year , can Spring be far behind?
如果下了第一场雪,春天还会远么?
 
10月份VMware发布了5.0版本的虚拟化产品,直到这2天才进行配置体验,懒了懒了。。
一、vSphere 5.0 安装组件,vCenter安装
 
二、vCenter 上安装Compose            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2011-12-03 22:09:08
                            
                                1238阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                2评论