这是我自己装BigData相关软件的一系列教程的第二篇,第一篇是Hadoop的安装  装软件是学大数据最最基础的一步,虽然相对简单,还是很容易出错啊。希望这个详细的教程可以帮助其他想学大数据的同学少走弯路。一、准备工作  装软件最怕的事情就是安错版本。所以安装Hbase前,看一下官网的basic preparation。(但官方文档有好多准备工作啊,比如DNS,我们这个没那么复杂,只需确定Ha            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-20 23:42:53
                            
                                186阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            实验五总共有三个小实验,其中第三个是其中逻辑最复杂的一个,我今天结合官方的实现代码来讲解其中的执行过程。首先是以如下形式表示的表明亲子关系的输入文件,左列为孩子名字,右列为父母名字,中间以空格分隔。其中第一行是表头,第二行开始才是真实的数据,所以在处理数据时不考虑第一行。child-parent.txtchild parent
Steven Lucy
Steven Jack
Jone Lucy
J            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-20 15:03:49
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 林子雨与HBase:一场关于NoSQL数据库的探索之旅
在如今的互联网时代,数据已经成为一种宝贵的资源。随着数据量的激增,传统的关系型数据库在处理海量数据时,逐渐显现出其局限性。因此,NoSQL(非关系型数据库)应运而生,其中HBase作为一种分布式、列式存储的数据库,因其优秀的性能和灵活的扩展性而受到广泛关注。
## 什么是HBase?
HBase是一个开源的分布式数据库,建基于Goo            
                
         
            
            
            
            HBase安装及基本操作HBase安装部署Zookeeper正常部署Hadoop正常部署HBase的解压HBase的配置文件HBase远程发送到其他集群HBase服务的启动1.启动方式2.启动方式2查看HBase页面HBase Shell操作基本操作表的操作创建表插入数据到表扫描查看表数据查看表结构更新指定字段的数据查看“指定行”或“指定列族:列”的数据统计表数据行数删除数据清空表数据删除表变更            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 10:26:36
                            
                                341阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言:一、HBase介绍二、安装并配置HBase2.2.2 1. HBase2.2.2安装2. HBase配置2.1单机模式配置2.2 伪分布式模式配置三、 编程实践1. 利用Shell命令1.1 HBase中创建表1.2 HBase数据库基本操作1.3 查询表历史数据1.4 退出HBase数据库表操作HBase Java API编程实践前言:   &n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-09 20:34:13
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # HBase 实验指南
HBase 是一个开源的、非关系型的分布式数据库,能够使用 Hadoop HDFS 作为数据存储。它特别适用于需要随机读写大规模数据的应用。对于初学者来说,掌握 HBase 的基本操作是提升能力的重要一步。本文将引导你完成一个简单的 HBase 实验,我们将按步骤进行操作。
## 实验流程概览
下面的表格列出了整个实验的步骤,帮助你了解每个步骤的基本内容:
| 步            
                
         
            
            
            
            题目:熟悉常用的Linux操作和Hadoop操作实验环境:       操作系统:ubuntu16.04       hadoop版本:1.2.1       JDK版本:1.8实验内容:&            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 13:43:25
                            
                                158阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录:一、计算级数二、模拟图形绘制三、统计学生成绩环境:已经配置完成的Scala开发环境。Scala版本2.11.8  安装教程 一、计算级数问题:请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q为止,其中 q 为大于 0 的整数,其值通过键盘输入。例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=5            
                
         
            
            
            
            「清华集训 2017」小 Y 和二叉树原题数据好像没有卡这个情况5
1 2
2 1 3
3 2 4 5
1 3
1 3输出是1 2 3 4 5首先考虑一个\(O(n^2)\)的暴力:枚举一个点为根,向下展开树,此时只需要决策左儿子和右儿子的顺序当两个子树都存在时,由于两个子树包含的元素不同,所以可以直接把 两个子树序列首较小 (显然不会出现相同的情况) 的一个放在前面即可实际上我们可以发现,这样得            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-16 22:14:48
                            
                                90阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2016.02.05Hadoop学习51CTO是一个神奇的网站!Hadoop安装要点:  1. HADOOP_HOME不可用(/bin和/sbin中可能会生成对于该系统变量的使用),所以用HADOOP_INSTALL来替代  2. 在Linux中配置path是用:冒号进行分隔的  3. which gedit 可以查看gedit的目录  4. 若用Ubuntu或者debain系统,sudo ged            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-26 16:32:49
                            
                                72阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在Linux系统中,shell仍然是一个非常灵活的工具。Shell不仅仅是命令的收集,而且是一门非常棒的编程语言。您可以通过使用shell使大量的任务自动化,特别是在部署一键安装开发环境的情况.设定执行文件的程序和其他语言一样,文件第一行就必须指定文件的程序,这样才可以作为可执行文件#!/bin/bashShell 命令编辑好脚本后,还需要设定权限,才能执行chmod +x filename.sh            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-29 12:33:23
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录1、RDD属于Spark Core2、RDD的创建文件加载通过并行集合(数组)创建RDD3、RDD的操作(Transformation)filter(func):高阶函数→参数是函数map(func):一对一的映射flatmap(func):groupByKey():应用于键值对reduceByKey(func)4、RDD的操作(action)count()collect()first()ta            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-13 13:52:33
                            
                                110阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、sbt安装(jdk、spark、scala均配置完成)1.下载sbt安装包(注意Scala与sbt版本对应关系)2.创建安装目录等(如下代码)mkdir /home/WBQ/soft/sbt                # 创建安装目录
cd  /home/WBQ/soft/sbt
tar -zxvf ./sbt-1.8.0.tgz 
cd /home/WBQ/soft/sbt
chown             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-23 08:47:30
                            
                                183阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
              以前装Hadoop-3.1.2是跟着厦大林子雨的详细教程装的,所以遇到的问题不多,自己没怎么思考,导致跟着官网再装了一个Hadoop-2.9.2(为了装Hbase2.2.0)时装了两天,现在把遇到过的问题记下来以免以后再犯。  首先,安装软件首先看官网教程。但官网的教程是很简单的,比如Hadoop的安装。默认会创建hadoop用户;给hadoop权限;所有都在hadoop用户下操作(不然会出错            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-31 17:31:38
                            
                                364阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            正文①虚拟硬盘选择50G②在创建时选择的光盘映像文件(.iso)一定要和自己的Ubuntu版本匹配③一定要注意Ubuntu版本和Spark版本能不能匹配!④不要选择自动安装启动后,点击virtualbox的菜单“设备”选项,选择“安装增强功能”,系统便会自动安装好增强的功能,如果如果需要提示需要确认,输入return即可。打开终端,执行 sudo apt-get install virtualbo            
                
         
            
            
            
            林子雨老师《Spark编程基础》_第二章scala语言_重点1、scala基础知识1.1基本数据类型和变量基本数据类型字面量(literal)操作符富包装类变量1.2输入输出输入输出写入文件读取文件1.3控制结构1.3.1if控制1.3.2while循环1.3.3for循环1.3.4异常处理1.3.5对循环的控制1.4数据结构1.4.1数组Array1.4.2元组Tuple1.4.3容器Coll            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-29 21:30:51
                            
                                222阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录一、Spark作业执行流程(重点)二、RDD编程2.1创建RDD的⼆种⽅式:2.2Transformation算⼦2.3Action算子三、简单算子(必须掌握)3.1 map、mapPartitions、mapPartitionsWithIndex3.1.1 ⽐较map flatMap mapPartitions mapPartitionsWithIndex3.2 flatMap3.3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-23 12:49:14
                            
                                92阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言:我们来继续学习Spark基础吧!如何创建一个Pair的RDD我们有很多种方式创建一个pair的RDD,为了我们演示方便,我们使用在已有的RDD中使用map()方法来创建一个RDD的方式。如下:rdd4 = sc.parallelize(['age 29', 'count 3', 'age 33', 'count 55'])
D = rdd4.map(lambda x: (x.split("             
                
         
            
            
            
            文章目录前言一、大数据概述 前言大数据导论期末考试内容以林子雨老师的《大数据技术原理与应用》为主,这里整理一下林子雨老师慕课上的习题的知识点,帮助和大家进行复习。一、大数据概述第一次信息化浪潮标志是个人计算机、第二次是互联网,第三次信息化浪潮的标志是:云计算、大数据、物联网技术的普及。1Byte(字节) = 8bit; 1KB(Kilobyte,千字节)= 1024 Byte; 1MB(Mega            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-26 10:29:36
                            
                                39阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章说明本文主要是记录我在安装单虚拟机伪分布式hadoop集群与HBase中遇到的一些问题与处理方式。 主要的安装步骤基于林子雨老师的大数据软件安装和基础编程。虚拟机我采用的虚拟机工具是VMware WorkStations,没有选用VirtualBox(这里与林子雨老师的教程不同) 下面是我的虚拟机配置: 需要说明的是网络配置没有用桥接(在多个虚拟机构建伪分布式或者真分布式的时候是需要桥接的,同            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-01 09:48:08
                            
                                270阅读
                            
                                                                             
                 
                
                                
                    