一、安装PG131. 安装# Install the repository RPM:
sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm
# Install PostgreSQL:
sudo yum inst            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 20:22:07
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、简介        Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。(如图1.1所示)   (如图1.1)二、核心            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-15 22:07:50
                            
                                169阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            因为公司需要使用greenplum,而官方的datax版本在导数据到greenplum时,速度是非常慢的(严格说是datax导数据到postgresql,在导入到GP时,数据走的是master,一条一条insert的,当然是慢)。所以,这里采用了别人开发好的支持GP 的datax版本:https://github.com/HashDataInc/DataX首先来说一下GP,GP作为一种数据仓库工具            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-14 14:51:33
                            
                                76阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在数据处理和分析领域,Hive和Greenplum(GP)是两种流行的分布式计算工具。它们通常用于处理大规模数据,但各自的架构和优化手段却有很大区别。在这篇文章中,我将详细探讨两者的区别,涵盖环境配置、编译过程、参数调优、定制开发、调试技巧以及性能对比等方面。
### 环境配置
为了合理配置Hive和GP的环境,不同的需求和架构使我对两者进行了分析。
```mermaid
mindmap            
                
         
            
            
            
            Apache HDFSHadoop分布式文件系统(HDFS)提供了一种在多台计算机上存储大型文件的方法。 Hadoop和HDFS源自Google文件系统(GFS)文件。 在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。 使用Zookeeper,HDFS高可用性功能通过提供在具有热备用的主动/被动配置中的同一群集中运行两个冗余NameNode的选            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-26 12:47:17
                            
                                51阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            DURING_END_DATE=9999-12-31 23:59:59  #指定定时器的有效日期范围的结束日期,可以为空。DURING_START_DATE=2025-10-12 22:00:00  #指定定时器的有效日期范围的起始日期,必须是有效的日期字符串,不可以为空。FREQ_MONTH_WEEK_INTERVAL=1  #当TYPE=2时,表示每隔几天执行,值的有效范围为1到100。ARCH_TIMER_NAME=RT_TIMER  #定时器名称,和dmtimer.ini中的名称一致。            
                
         
            
            
            
            GP集群切换测试:1.确定集群状态t3-ze-app09为standby master节点,t3-ze-app11是master节点$ gpstate -a20211102:09:37:58:023988 gpstate:t3-ze-app11:greenplum-[INFO]:-Starting  ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-11-02 11:05:00
                            
                                554阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            你混淆了静态库和动态库的概念。让我为你详细解释: 静态库 vs 动态库 静态库 (.lib) 编译时链接:代码被直接嵌入到EXE文件中            
                
         
            
            
            
            什么是gitGit:一种开源的分布式版本控制系统,是安装在本地的软件,可以有效、高速地处理从很小到非常大的项目版本管理。由于git是一种分布式版本控制系统,所以同一个项目仓库可以分布在不同的机器上,它可以管理四种区域:工作目录:当前正在进行编程的文件夹目录本地仓库:由git创建的,存放各种项目的的各种版本的本地文件系统暂存区:用来隔离工作目录和git仓库的区域远程仓库:由基于git的代码托管平台建            
                
         
            
            
            
            1、 GC调整默认自动分配GC、
手动修改的话
hadoop-env.sh
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS-Xmx1024m"关于GC的修改参考Namenode            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-20 20:33:17
                            
                                124阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive支持使用HDFS之外的存储系统作为底层存储系统,其中官方明确支持HBase,Kudu,Druid和JDBC(MySQL等)。Hive提供了相应的接口 StorageHandlers,用以实现和其他存储系统的整合。Phoenix实现了相应的接口,可以使用Phoenix作为Hive的底层存储系统,在Hive中操作Phoenix表,并和Hive本地表进行互操作。Phoenix官网该特性的详细描述            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-08 21:24:23
                            
                                70阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、背景介绍  最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务。而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板。  然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台数据导出到CSV文件,然后再将CSV文件导入到ODPS平台。在这个过程中踩的坑有点多,所以想写篇            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-12 18:17:57
                            
                                218阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 理解 GP HIVE 区别的流程
在大数据处理领域,GP(Greenplum)和 HIVE 是常用的工具,然而它们在处理数据的方式和使用场景上略有不同。那么,如何来区分它们呢?本篇文章将为你提供一个清晰的流程,让你逐步掌握 GP 和 HIVE 的区别。
## 整体流程
首先,我们来看一下整个流程概要,如下表所示:
| 步骤 | 描述            
                
         
            
            
            
            Express框架实战Express简介如何搭建一个服务中间件介绍路由&过滤器模板引擎实际业务场景Express简介Node(正式名称 Node.js)是一个开源的、跨平台的运行时环境,有了它,开发人员可以使用 JavaScript 创建各种服务器端工具和应用程序。此运行时主要用于浏览器上下文之外(即可以直接运行于计算机或服务器操作系统上)。据此,该环境省略了一些浏览器专用的 JavaSc            
                
         
            
            
            
            三大特征(封装,继承,多态)封装数据角度讲1.定义: 将一些基本数据类型复合成一个自定义类型。2.优势: 将数据与对数据的操作相关联。代码可读性更高(类是对象的模板)。行为角度讲1.定义: 向类外提供必要的功能,隐藏实现的细节。2.优势: 简化编程,使用者不必了解具体的实现细节,只需要调用对外提供的功能。3.私有成员:(1)作用:无需向类外提供的成员,可以通过私有化进行屏蔽。
	(2)做法:命名使            
                
         
            
            
            
            # iOS静态库和动态库区别
在iOS开发中,静态库和动态库是两种常用的代码复用方式。静态库在编译链接时会被直接拷贝到可执行文件中,而动态库则是在运行时加载到内存中。本文将介绍静态库和动态库的区别,以及它们在iOS开发中的应用。
## 静态库与动态库的区别
### 静态库
静态库是一种包含了可执行代码、数据和资源的独立单元,它在编译链接时会被完整地拷贝到可执行文件中。静态库的优点是使用简单            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-06-15 06:49:40
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # SQL Server和MySQL数据库区别
## 概述
在进行数据库开发时,我们经常会遇到选择不同类型的数据库的情况。SQL Server和MySQL都是常见的关系型数据库管理系统(RDBMS),它们在很多方面有所区别。本文将介绍如何实现SQL Server和MySQL数据库之间的区别。
## 流程
下面是实现SQL Server和MySQL数据库区别的流程:
| 步骤 | 操作 |
|            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-12-18 08:09:19
                            
                                60阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文主要分享Hadoop三大分析工具:Hive、Pig和Impala。Hive和Pig是高级数据语言,基于Mapreduce,底层处理的时候会转换成Mapreduce去提交,Hive和Pig都是开源的,Hive最初由Facebook开发,Pig最初由Yahoo!开发,下面进行分别介绍:一、什么是Hive?Hive可以看做是SQL到Mapreduce的一个映射器,就是不用开发Mapreduce,只要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-07 21:23:38
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             以前也玩过spark,但这次玩,是因为spark从1.4版本后使spark sql独立出来,想必一定不赖;另外,还支持DataFrame,底层存储支持parquet,甚至orc file。    一、parquet 和 orc 对比    我专门查了查parquet 和 orc,网上很多,我只说关键的。               
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-10 12:30:37
                            
                                118阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.记忆化搜索的思想    记忆化搜索的思想是,在搜索过程中,会有很多重复计算,如果我们能记录一些状态的答案,就可以减少重复搜索量2、记忆化搜索的适用范围它是解决重复计算,而不是重复生成,也就是说,这些搜索必须是在搜索扩展路径的过程中分步计算的题目,也就是“搜索答案与路径相关”的题目,而不能是搜索一个路径之后才能进行计算的题目,必须要分步计算,并且搜索过程中