1.       数据库启动:gpstart常用可选参数: -a : 直接启动,不提示终端用户输入确认                   
转载 2024-07-29 19:39:57
104阅读
sequence 是一种特殊的数据库对象,用来产生独一无二的数字ID。Postgres中有一种数据类型serial,和sequence对应:        如果我们插入一笔记录,我们希望系统自动为我们分配一个ID,那么我们需要使用serial type。如果我们创建表的时候,自动创建一个serial类型(包smallserial and
转载 2024-03-21 22:26:36
118阅读
以下内容根据演讲PPT以及现场分享整理而成。数据分析业务模型 首先介绍一下数据分析的业务模型,以及遇到的问题。博雅立方作为一家数据分析的公司,数据来源是非常多样的,而且我们未来希望形成一个大型的平台,在这个平台上的数据将会是用户自定义的形式的,而且用户的数据源将会是非常多样化的。在这样的业务情况之下,要做的第一个步骤就是进行数据采集,也就是让用户定义自身的数据类型并且进行采集。数据采集完成之后就进
  为什么需要ANALYZE  首先介绍下RBO和CBO,这是数据库引擎在执行SQL语句时的2种不同的优化策略。  RBO(Rule-Based Optimizer)  基于规则的优化器,就是优化器在优化查询计划的时候,是根据预先设置好的规则进行的,这些规则无法灵活改变。举个例子,索引优先于扫描,这是一个规则,优化器在遇到所有可以利用索引的地方,都不会选择扫描。这在多数情况下是正确的,但也不完全如
一、Greenplum的发展历史 Greenplum的发展可以分为下面6个阶段:   图 1 Greenplum时间线 Postgres关系型数据库。Postgres是UC Berkeley开发的关系型数据库,现已更名为PostgreSQL。PostgerSQL官网介绍自己是最先进的数据库,有强大的SQL支持能力,扩
转载 2024-06-24 19:09:06
49阅读
今天和大家分享的标题是《新一代PB级分布式HTAP数据库》,我加了个副标题为:Greenplum能做什么?过去,我们做的分享大多是从产品的角度,分享Greenplum有哪些特性。后来接到一些反馈,很多听众都表示在听到这些特性后,更希望知道将这些特性综合起来可以对业务有哪些支撑。因此今天重点和大家分享Greenplum能做什么,并引出背后需要什么样的技术支撑。 Greenplum是个关系型数
Greenplum 数据库最佳实践 》 系统参数配置系统配置本章主要描述在Greenplum部署之前,系统参数的配置文件系统 (File System)推荐使用XFS作为Greenplum默认文件系统, 目前redhat,Centos 7.0 都开始使用XFS作为默认文件系统如果系统不支持 需要使用下面的挂载命令rw,noatime,nobarrier,nodev,inode64,allocsi
本文章介绍Greenplum(简称GP)的并行化数据加载。 GP数据库使用外部表特性支持快速,并行化的数据加载。我们可以使用单行错误隔离模式来加载外部表数据,将错误或格式有问题的记录数加载到独立的错误表里面。 通过使用外部表结合GP数据库的并行文件服务器gpfdist功能,我们能够实现最大并行度和加载带宽。 如下图使用gpfdist实现外部表数据加载: &n
# Greenplum7性能优化指南 ## 1. 引言 Greenplum是一款基于PostgreSQL的开源分布式数据库系统,以其卓越的并行处理能力和高性能而闻名。在Greenplum6的基础上,Greenplum7进一步优化了性能,提升了查询效率和数据处理能力。本文将介绍如何实现在Greenplum7中比Greenplum6更高的性能。 ## 2. 性能优化流程 下面是实现性能优化的流程
原创 2024-01-16 01:24:07
463阅读
PostgreSQL的SQL优化技巧其实和大多数使用CBO优化器的数据库类似,因此一些常用的SQL优化改写技巧在PostgreSQL也是能够使用的。当然也会有一些不同的地方,今天我们来看看一些在PostgreSQL常用的SQL优化改写技巧。1、标量子查询与filter当一个查询在select和from之间,那么这种子查询就是标量子查询。实际应用中,很多人在写SQL时为了方便会写一堆标量子查询的SQ
docker-compose构建gerrit前端代码审计功能## 拉取gerrit需要的镜像docker pull gerritcodereview/gerrit docker pull osixia/openldap docker pull osixia/phpldapadmin创建挂载数据存储目录mkdir -p /data/gerrit/{etc,git,db,index,cache,.
转载 2024-09-18 19:28:07
49阅读
# Greenplum 6机器学习包简介 随着数据科学的迅猛发展,机器学习已成为学术研究和商业应用中的重要组成部分。Greenplum作为一款强大的开源数据仓库,提供了内置的机器学习支持,使数据科学家可以在大型数据集中高效地应用机器学习算法。本文将介绍Greenplum 6中机器学习包的基本概念及使用示例,助您快速上手。 ## Greenplum的机器学习包概述 Greenplum 6 嵌入
原创 10月前
24阅读
greenplum(gp)/postgre清理pg_xlog释放空间 greenplum数据库在大量数据更新时,会产生大量的pg_xlog,造成磁盘空间占用;系统长时间运行后,pg_log文件夹下日志文件也会越来越大,合理的做法是日志文件的磁盘和数据目录挂载在不同的磁盘路径下或者磁盘扩容;若在同一路径下,可将日志文件备份到其他路径,腾出一部分空间,或清理pg_xlog【注意】:pg_xlog下面的
Mysql 在面对大数据量的时候,还是表现有些吃力,所以产品中需要扩展能支持海量数据的数据库,这里选择的数据库为 Greenplum6Greenplum 底层使用的是开源数据库 PostgreSQL 。本文会介绍怎样在 CentOS 7 中安装 Greenplum6,并使用 dotNET Core 程序进行连接访问。 环境 CentOS:7.6 Greenplum:6.15 dotNE
原创 2021-07-23 16:02:55
166阅读
概述数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,我们引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。本文将从数据分布的历史和原理开始,介绍我们的思路和解决办法。理解数据分布提到数据分布,很多人会想到MPP DBMS。的确,我们通常说只有MPP DBMS才需要考虑数据分布优
硬件环境虚拟机配置:4台CentOS 7.5 虚拟机   内存 8G  存储 150G   单核Greenplum及postgresql版本Grenplum 6.0.0  postgresql 9.1节点配置一个master(主节点),六个segment(子节点)数据信息使用程序生成2008年1月1日至2018年1月1日的10分钟数据,测
介绍在同一集群中安装不同版本的Greenplum时,如何方便快捷的切换不同数据库的方法。
原创 2023-08-17 14:56:14
432阅读
greenplum基本知识Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。Greenplum数据库是基于PostgreSQL开源技术的。它本质上是多个PostgreSQL面向磁盘的数据库实例一起工作形成的一个紧密结合的数据库管理系统(DBMS)。它基于PostgreSQL9.4开发,其SQL支持、特性、配置选项和
原创 2021-04-28 01:00:30
2131阅读
Greenplum版本升级的详细过程,此博客做了详细的介绍。
原创 2023-06-18 21:21:11
344阅读
简介:Greenplum流服务器(GPSS)管理客户端(如:Greenplum- Kafka )和Greenplum数据库之间的通信和数据传输。在使用该服务将数据加载到Greenplum数据库之前,必须先配置并启动GPSS实例。1. 安装前准备条件Greenplum流服务器gpss和gpsscli命令行工具,在安装Greenplum数据库版本5.16及其以上版本时,已自动安装在其中,无需进行单独安
转载 2024-04-21 16:33:03
59阅读
  • 1
  • 2
  • 3
  • 4
  • 5