Bigdata-CDH-Hadoop生态系统中的RPC性能瓶颈一、数据块汇报间隔时间二、Namenode优化三、RPC客户端优化  RPC 是远程过程调用 (Remote Procedure Call),即远程调用其他虚拟机中运行的 java object。  而HDFS的运行建立在RPC上,NameNode的RPC queue time指标可以显示表达这个系统当前状态。 在大规模的集群中,RP            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 09:48:33
                            
                                126阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            今天在做jmeter压力测试时又出现以前经常出现的异常,如下图,长时间不弄这个的,又有点不知所措了,所以干脆再来总结一下问题:以前写过两篇文章,对这个问题研究过,见下面连接:连接2:Eclipse崩溃,错误提示:MyEclipse has detected that less than 5% of the 64MB of PermGen (Non-heap memory) space remain            
                
         
            
            
            
            # 如何实现Hive使用max效率
## 一、流程图
| 步骤 | 操作 |
| :----: | :----: |
| 1 | 数据预处理 |
| 2 | 创建Hive表 |
| 3 | 分区和分桶 |
| 4 | 数据导入 |
| 5 | 使用并行加载 |
| 6 | 数据压缩 |
| 7 | 使用分区裁剪 |
## 二、具体步骤
### 1. 数据预处理
在进行Hive操作之前,首            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-30 03:19:52
                            
                                30阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            今天分享一下Hive如何提升查询效率。Hive作为最大数据培训常用的数仓计算引擎,是我们必备的技能,但是很多人只是会写Hql,并不会优化,也不知道如何提升查询效率,今天分享8条军规:1、开启FetchTask一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用FetchTask,从hdfs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-29 11:04:18
                            
                                96阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            环境:MSSQL 2008, 都在没有使用缓存的情况下面执行表中有8W 条记录分类1有134条记录分别测试了3个语句-- Aselect 字段1from 表1 WHERE Ftype='分类1'ORDER BY 字段1-- Bselect Top 1 字段1from 表1 WHERE Ftype='分类1'Order by 字段1 desc-- Cselect MAX(字段1)from 表1 WHERE Ftype='分类1'A 语句 很快几乎0秒B 语句 需要近 8秒C 语句和 B一样 需要8 秒看来TOP和MAX的效率是及其的低啊后来求最大值            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-22 15:00:14
                            
                                269阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 如何实现“Hadoop 效率”
## 简介
Hadoop 是一个开源的分布式计算框架,用于处理大规模数据集的分布式存储和计算。如何实现高效的 Hadoop 实践是每个开发者都应该掌握的技能之一。在本文中,我将向你介绍如何通过一系列步骤来提高 Hadoop 的效率,以便更好地处理大规模数据集。
## 整体流程
下面是实现“Hadoop 效率”的整体流程。我们将会分为五个步骤来进行讲解。
|            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-09-06 06:16:09
                            
                                91阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # MySQL中max日期的用法
在MySQL数据库中,`MAX()`函数用于返回一列或表达式中的最大值。在日期类型的字段中,`MAX()`函数可以用来获取最新的日期值。本文将介绍如何在MySQL中使用`MAX()`函数来获取最大日期值,并提供相关的代码示例。
## MAX()函数简介
`MAX()`函数是MySQL中的聚合函数之一,用于获取指定列或表达式中的最大值。当应用于日期类型的字段时            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-05 06:35:25
                            
                                242阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            在Java中,`max`函数通常用于获取两个数的最大值。这个方法在数据比较和算法实现中非常有用,特别是在处理需要决策的业务逻辑时。但是,很多开发者在使用过程中可能会遇到一些问题。接下来,我们将详细探讨Java里的 `max` 函数的用法及相关问题。
为了便于理解,首先来看看我们的触发链路。
```mermaid
flowchart TD
    A[客户请求数据] --> B{IS valid            
                
         
            
            
            
            网上有很多人都在谈论or与in的使用,有的说二者没有什么区别,其实不然,估计是测试做的不够,其实or的效率为O(n),而in的效率为O(log2n),当基数越大时,in的效率就能凸显出来了。有人做了这么一组实验(测试库数据为1000万条记录):A组分别用or与in查询3条记录,B组分别用or与in查询120条记录,C组分别用or与in查询500条记录,D组分别用or与in查询1000条记录.第一种            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-09 14:28:01
                            
                                449阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.大数据集群节点规划1.1 数据存储总量预估比如业务系统数据量每天增量 50T,保留周期为 30 天,那么 HDFS 存储 容量为 50T * 30 天 * 3 副本 * 2 倍(数据源+清晰加工) = 9000T = 8.79P 1.2 DataNode节点规模预估每个机器的磁盘是 4T * 10 = 40T, 每台机器的可用存储容量为 40T *&nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-13 16:42:39
                            
                                258阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大家用的比较多。以前上学的时候就没有用过开源的软件,直接用盗版,也相当与免费,且比开源好用,例如向oracle,windows7等等。现在工作了,由于公司考虑成本的问题,所以都用成开源的,ubuntu,mysql等,本人现在支持开源,特别像hadoop这样的东西,真的太好了,不但可以            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-12 11:36:58
                            
                                4阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、HDFS 产生的背景Hadoop 的三大组成为:HDFS、YARN 和 Map Reduce,今天我们主要探讨 HDFS。   随着数据量的越来越大,在一个操作系统无法存放所有的数据,那么就需要将数据分派到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是 Hadoop 分布式文件管理系统,HDFS 是分布式文管理系统的一种。二、HDFS            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 10:25:03
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-14 14:27:55
                            
                                18阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、概述二、地址空间2.1 物理地址空间布局2.2 kernel image 布局2.3 虚拟地址空间三、参考一、概述这篇文章主要介绍地址空间的布局及其建立过程。二、地址空间Linux x86_64下内存的初始化流程可以参照下图:本文主要是对上图绿色部分的描述。2.1 物理地址空间布局在执行setup_arch之前,内核通过e820(int 0xe820)获取BIOS存储的物理内存布局信息,这            
                
         
            
            
            
            # MySQL if里用max函数
在MySQL中,我们经常需要根据条件来执行不同的操作。这时,我们可以使用`IF`函数来实现条件判断。而在某些情况下,我们还需要在条件判断中使用`MAX`函数来获取最大值。本文将介绍如何在MySQL的`IF`函数中使用`MAX`函数,并提供了相应的代码示例。
## IF函数概述
MySQL的`IF`函数是用于条件判断的函数,它的语法如下:
```sql
I            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-10-02 08:28:50
                            
                                864阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            HDFS java API Base首先要拷贝hadoop配置文件 和 log4j.properties 到maven项目的类路径(e.g. resources 目录)<!-- hadoop客户端依赖包-->
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactI            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-24 22:41:57
                            
                                15阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark 和 Hadoop一直是大数据离线计算的必经之路,自己在工作中也经常用到,所以学习一下原理还是很有必要的,不然碰到问题很容易一脸懵逼,其中感觉shuffle是两者的核心之一,故整理下,方便以后回顾。大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性。MapRedu            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 12:33:56
                            
                                65阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Hadoop 里的 cp 命令浅析及实践
Hadoop 是一个开源的分布式计算框架,广泛应用于大数据的存储和处理。在 Hadoop 的世界中,文件的复制、移动和管理是非常重要的操作。而 `cp` 命令是其中一种基本命令,用于在 Hadoop 分布式文件系统(HDFS)中复制文件。本文将深入探讨 Hadoop 里的 `cp` 命令,并提供相应的代码示例,以帮助读者更好地理解其用法。
## H            
                
         
            
            
            
            人们对于Mapreduce程序刚開始时都觉得仅仅须要一个reduce就够了。毕竟,在你处理数据之前一个reducer已经把数据都分好类了,有谁不喜欢分好类的数据呢。可是这样我们就忽略了并行计算的优势。假设仅仅有一个reducer。我们的云计算就退化成了一个小雨点。
在多个reducer的情况下,我们须要某种机制来控制mapper的结果的分配问题。这是就Partitioner的工作了。
在默认情            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2015-12-24 19:33:00
                            
                                89阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 Hadoop streaming  
   [html]  
   view plain 
    copy 
    
     1. Hadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如,  
2.   
3. $HADOOP_