说明:这里我们以本地模式和伪分布模式伪列,为大家介绍如何搭建Hadoop环境。有了这个基础,大家可以自行搭建Hadoop的全分布模式。需要使用的安装介质:hadoop-2.7.3.tar.gzjdk-8u181-linux-x64.tar.gzrhel-server-7.4-x86_64-dvd.iso一、安装前的准备工作安装好Redhat Linux 7.4(安装包rhel-server-7.4            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-04-29 14:31:29
                            
                                160阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
              在部署Hadoop之前,需要对Hadoop的目录结构要有一定了解。
点击这里查看视频讲解:【赵渝强老师】:Hadoop的本地模式
  先执行下面的语句将Hadoop的安装介质解压的/root/training目录。
tar -zxvf hadoop-3.1.2.tar.gz -C ~/training/
  下面展示了Hadoop的目录结构。
  为了方便操作Ha            
                
         
            
            
            
            HDFS的快照(Snapshot)是一个全部文件系统、或者某个目录在某一时刻的镜像。这里其实可以把HDFS的快照理解成是HDFS提供的一种备份机制。快照应用在以下场景中:
防止用户的错误操作
备份
试验/测试
灾难恢复
点击这里查看视频讲解:【赵渝强老师】:Hadoop HDFS的快照
由于HDFS的快照功能是针对的目录,因此需要首先使用HDFS的管理员命令开启目录的快            
                
         
            
            
            
              
下图为大家展示了Hadoop生态圈体系中的主要组件以及它们彼此之间的关系。
点击这里查看视频讲解:【赵渝强老师】:Hadoop生态圈组件
  这里先简单说明每一个组件的作用功能。
一、HDFS
  它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,            
                
         
            
            
            
              由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。下表一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn,因此在部署HDFS HA的时候,也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示:
点击这里查看视频            
                
         
            
            
            
            MongoDB是非关系型数据库NoSQL的代表,作为一款可分布式存储的数据库,对文档的操作是MongoDB的重中之重。在本文中,我们将着重为大家介绍如何在MongoDB中插入文档。MongoDB一共为我们提供了三种方式用于插入文档:db.collection.insertOne() :插入一个指定文档db.collection.insertMany() :插入多个指定文档db.collection            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-07 13:18:06
                            
                                270阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            对运行状态的Redis实例进行监控是运维管理中非常重要的内容,包括:监控Redis的内存、监控Redis的吞吐量、监控Redis的运行时信息和监控Redis的延时。通过Redis提供的监控命令便能非常方便地实现对各项指标的监控。
一、监控Redis的内存
点击这里查看视频讲解:【赵渝强老师】:监控Redis的内存
Redis监控内存最直接的方法当然就是使用系统提供的info            
                
         
            
            
            
            一、什么是HBase? HBase是一个基于HDFS之上的分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“BigTable大表”,即:把所有的数据存入一张表中。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-02 11:02:00
                            
                                189阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            (一)什么是Redis Cluster? Redis Cluster是Redis的分布式解决方案,在Redis 3.0版本正式推出的,有效解决了Redis分布式方面的需求。当遇到单机内存、并发、流量等瓶颈时,可以采用Cluster架构达到负载均衡的目的。 Redis使用中遇到的瓶颈 我们日常在对于r ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2020-04-09 11:13:00
                            
                                114阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)之上,并兼容现有的Java程序。因此,要安装Scala环境之前,首先需要安装Java的JDK。学习Scala编程语言,将为后续学习Spark和Flink奠定基础。
点击这里查看视频讲解:【赵渝强老师】:Scala编程语言
下面的代码展示了在            
                
         
            
            
            
            一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2020-07-02 16:35:00
                            
                                155阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            一、什么是Kafka? 数据工程中最具挑战性的部分之一是如何从不同点收集和传输大量数据到分布式系统进行处理和分析。需要通过消息队列正确地分离大量数据,因为如果一部分数据无法传送,则可以在系统恢复时传输和分析其他数据。有两种消息排队,对于上述目的,它们都是可靠的和异步的。点对点(Point to po ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-14 21:39:48
                            
                                156阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            一、什么是PL/SQL? PL/SQL(Procedure Language/SQL)是oracle在标准的sql语言上的扩展。ql/sql不仅允许嵌入sql语言,还可以定义变量和常量,允许私用条件语句和循环语句,允许使用例外处理各种错误,这使得它的功能变得更加强大。 PL/SQL开发工具主要有:  ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-14 21:52:38
                            
                                159阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            字符函数,顾名思义,操作的就是字符串。通过下图,我们来了解一下Oracle的字符函数。 一、大小写控制函数 lower、upper、initcap select lower('Hello World') 转小写,upper('Hello World') 转大写,initcap('hello worl ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-14 23:13:44
                            
                                149阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。下面我们通过具体的代码来为大家演示每个算子的作用。1、Map、FlatMap与MapPartition//获取运行环境
ExecutionEnvironment             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-06 14:47:41
                            
                                111阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            一、Kafka持久化概述Kakfa 依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢,基于文件系统的架构能否提供优异的性能?实际上硬盘的快慢完全取决于使用方式。同时 Kafka 基于 JVM 内存有以下缺点:对象的内存开销非常高,通常是要存储的数据的两倍甚至更高随着堆内数据的增加,GC的速度越来越慢实际上磁盘线性写入的性能远远大于任意位置写的性能,线性读写由操作系统进行了大量优化(r            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-05-22 14:36:51
                            
                                328阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            OceanBase是一款开源的国产分布式关系型数据库。通过使用OceanBase提供的obd和OCP均可以部署OceanBase数据库集群。
点击这里查看视频讲解:【赵渝强老师】:OceanBase部署工具
下面分别进行介绍。
一、 使用obd部署OceanBase
obd全称为OceanBase Deployer,是OceanBase安装部署工具,通过命令行部署或白屏界面            
                
         
            
            
            
            
Memcached是一个高性能的分布式的内存对象缓存系统。通过使用Memcached可以支持高负载的网站系统,以分担数据库的压力。Memcached通过在内存里维护一个统一的巨大的Hash表来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。但是Memcached不能将数据进行持久化,因此严格意义来说,Memcached只能叫做一个缓存技术,而不能叫做数据库。
点击            
                
         
            
            
            
            Hadoop大数据公开课招募啦~~~ 赵强老师免费公开课 l  时间:2017年03月14号晚19:30-21:00n  19:30-20:30讲述Hadoop的背景知识,包括:大数据背景、数据仓库、Hadoop的思想来源(Google的三大思想)n  20:30-21:00答疑 l  讲师简介13年IT行业从业经历,清华大学计            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2017-02-14 11:35:35
                            
                                6650阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站,它说明了HDFS的体系架构。
点击这里查看视频讲解:【赵渝强老师】:HDFS的体系架构
一、NameNode的职责
NameNode,即名称节点,它是HDFS的主节点,其主要作用体现在以下几个方面。