一、简介        Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节情况下,开发分布式程序。充分利用集群威力高速运算存储。简单地说来,Hadoop是一个可以更容易开发运行处理大规模数据软件平台。(如图1.1所示)   (如图1.1)二、核心
转载 2023-09-15 22:07:50
169阅读
因为公司需要使用greenplum,而官方datax版本在导数据到greenplum时,速度是非常慢(严格说是datax导数据到postgresql,在导入到GP时,数据走是master,一条一条insert,当然是慢)。所以,这里采用了别人开发好支持GP datax版本:https://github.com/HashDataInc/DataX首先来说一下GPGP作为一种数据仓库工具
转载 2023-12-14 14:51:33
76阅读
在数据处理分析领域,HiveGreenplum(GP)是两种流行分布式计算工具。它们通常用于处理大规模数据,但各自架构优化手段却有很大区别。在这篇文章中,我将详细探讨两者区别,涵盖环境配置、编译过程、参数调优、定制开发、调试技巧以及性能对比等方面。 ### 环境配置 为了合理配置HiveGP环境,不同需求和架构使我对两者进行了分析。 ```mermaid mindmap
原创 6月前
120阅读
Apache HDFSHadoop分布式文件系统(HDFS)提供了一种在多台计算机上存储大型文件方法。 HadoopHDFS源自Google文件系统(GFS)文件。 在Hadoop 2.0.0之前,NameNode是HDFS集群中单点故障(SPOF)。 使用Zookeeper,HDFS高可用性功能通过提供在具有热备用主动/被动配置中同一群集中运行两个冗余NameNode
转载 2024-07-26 12:47:17
51阅读
啥是hive?为啥学习它?Hive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL查询功能。因为直接使用MapReduce实现复杂查询逻辑开发难度格外大,使用Hive能够使用类SQL语法,提供效率。有这么些个特点:可扩展(自由扩展规模),可延展(支持自定义函数),有容错(节点有问题SQL仍可工作)  Hive与Hadoop关系&n
转载 2024-03-05 19:28:40
290阅读
Microsoft SQL Server是一个数据库管理分析系统,主要用于电子商务,业务范围不同数据仓库解决方案。另一方面,PostgreSQL是高级对象关系数据库管理系统,它为SQL标准扩展子集提供支持,包括不同事务,外键,子查询,触发器以及不同用户定义类型功能。SQL Server与PostgreSQL之间主要区别两者都是市场上流行选择。让我们讨论一些主要区别:CSV支持
转载 2023-11-25 12:43:31
612阅读
 以前也玩过spark,但这次玩,是因为spark从1.4版本后使spark sql独立出来,想必一定不赖;另外,还支持DataFrame,底层存储支持parquet,甚至orc file。    一、parquet orc 对比    我专门查了查parquet orc,网上很多,我只说关键。  &nbsp
转载 2024-06-10 12:30:37
118阅读
Hive支持使用HDFS之外存储系统作为底层存储系统,其中官方明确支持HBase,Kudu,DruidJDBC(MySQL等)。Hive提供了相应接口 StorageHandlers,用以实现其他存储系统整合。Phoenix实现了相应接口,可以使用Phoenix作为Hive底层存储系统,在Hive中操作Phoenix表,并和Hive本地表进行互操作。Phoenix官网该特性详细描述
转载 2023-11-08 21:24:23
70阅读
1、 GC调整默认自动分配GC、 手动修改的话 hadoop-env.sh export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m" export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS-Xmx1024m"关于GC修改参考Namenode
转载 2023-08-20 20:33:17
124阅读
使用EXPDPIMPDP时应该注意事项:EXPIMP是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用。EXPDPIMPDP是服务端工具程序,他们只能在ORACLE服务端使用,不能在客户端使用。IMP只适用于EXP导出文件,不适用于EXPDP导出文件;IMPDP只适用于EXPDP导出文件,而不适用于EXP导出文件。expdp或impdp命令时,可暂不指出用户名/密码@实例名
转载 2024-10-18 20:43:28
80阅读
一、背景介绍  最近几天,接到公司一个将当前大数据平台数据全部迁移到阿里云ODPS平台上任务。而申请这个ODPS平台是属于政务内网,因考虑到安全问题当前大数据平台与阿里云ODPS网络是不通,所以不能使用数据采集工作流模板。  然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台数据导出到CSV文件,然后再将CSV文件导入到ODPS平台。在这个过程中踩坑有点多,所以想写篇
转载 2023-10-12 18:17:57
218阅读
技术没有好坏之分,知识看一下是否符合你业务,能否解决你业务需求。其次也要查看社区活跃度以及更新频次。
原创 2023-09-25 16:31:06
155阅读
1,标准SQL数据类型 BINARY 每个字符占一个字节 任何类型数据都可存储在这种类型字段中。不需数据转换(例如,转换到文本数据)。数据输入二进制字段方式决定了它输出方式。 BIT 1 个字节0 1 ,以及只包含这两个数值之一字段。 TINYINT 1 个字节 介于 0 到 255 之间整型数。 MONEY 8 个字节 介于 – 922,337
转载 9月前
73阅读
# 理解 GP HIVE 区别的流程 在大数据处理领域,GP(Greenplum) HIVE 是常用工具,然而它们在处理数据方式使用场景上略有不同。那么,如何来区分它们呢?本篇文章将为你提供一个清晰流程,让你逐步掌握 GP HIVE 区别。 ## 整体流程 首先,我们来看一下整个流程概要,如下表所示: | 步骤 | 描述
原创 10月前
64阅读
数据库重要性,不用多说。数据库名字,大家应该也知道很多。就国内来说,使用者最多应该是mysql sql server,大企业用ORACLE也不在少数。就我个人而言,在使用.NET时候,基本用SQL Server,毕竟微软是一家产品。用PHP或者其他语言时候,基本就是Mysql(mariadb)。话不多说,先了解一下PostgreSql一些基本情况,作为一个工程师,学习一个新
转载 2024-08-10 19:10:21
161阅读
摘要:由于Hive采用了SQL查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库差异。数据 由于Hive采用了SQL查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive
转载 2024-02-03 06:25:12
169阅读
Sequel: Ruby数据库工具包简介Sequel是Ruby中用于访问SQL数据库一个简单、灵活、强大工具包。Sequel能够保证线程安全,提供了连接池功能以及简洁SDL用于创建SQL查询及表定义;Sequel包括一个强大ORM层用于映射数据库记录Ruby对象以及相关记录;Sequel提供一些高级数据库特写,比如,预处理语句,绑定变量、存储过程、事务、两阶段提交、事务隔离、主/从
转载 2023-12-17 17:12:12
102阅读
有限合伙制基金及基金管理企业合伙人分为有限合伙人(LP, Limited Partner)及普通合伙人(GP, General Partner)。简单而言,有限合伙人即真正投资者,但不负责具体经营;只有其中普通合伙人有权管理、决定合伙事务,负责带领团队运营,对合伙债务负无限责任。   1)普通合伙人对合伙企业债务负无限责任。有限合伙人只以其出资对合伙企业负有限责任; &nbs
转载 精选 2013-05-06 12:23:18
1128阅读
一、PL/SQL出现目的  结构化查询语言(Structured Query Language,简称SQL)是用来访问关系型数据库一种通用语言,它属于第四代语言(4GL),其执行特点是非过程化,即不用指明执行具体方法途径,而是简单调用相应语句来直接取得结果即可。显然,这种不关注任何实现细节语言对于开发者来说有着极大便利。 然而,对于有些复杂业务流程又要求相应程序来描述,那么4GL就
本文主要分享Hadoop三大分析工具:Hive、PigImpala。HivePig是高级数据语言,基于Mapreduce,底层处理时候会转换成Mapreduce去提交,HivePig都是开源,Hive最初由Facebook开发,Pig最初由Yahoo!开发,下面进行分别介绍:一、什么是Hive?Hive可以看做是SQL到Mapreduce一个映射器,就是不用开发Mapreduce,只要
转载 2023-12-07 21:23:38
94阅读
  • 1
  • 2
  • 3
  • 4
  • 5