presto为什么比hive快那么多 presto比spark快

转载

IT智行者 2023-11-12 13:36:35

文章标签 presto为什么比hive快那么多大数据 hadoop presto hive 文章分类 Hive 大数据

一、Presto架构

presto为什么比hive快那么多 presto比spark快_大数据

二、优缺点

优点

1、Presto采用内存到内存的方式，相对于Mapreduce查询（容错机制，为了保障准确性，中间写入磁盘），减少了中间写入磁盘，从磁盘读取数据的方式。计算更快
2、减少阶段间的等待时间，Mapreduce不支持DAG，maptask未完成，不能执行reduce，Presto采取管道式传输的方式，边清理内存，边计算。
3、可以连接多个数据源，比如同时查询hive和mysql的数据再合并

缺点

1、需要较大的内存
2、关联查询会变慢

三、安装

0）官网地址
https://prestodb.github.io/
1）下载地址
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.196/presto-server-0.196.tar.gz
2）将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下，并解压到/opt/module目录

tar -zxvf presto-server-0.196.tar.gz -C /opt/module/

3）修改名称为presto,方便查看

mv presto-server-0.196/ presto

4）进入到/opt/module/presto目录，并创建存储数据文件夹,并创建存储配置文件文件夹

mkdir data etc

5）在presto/etc目录下添加jvm.config配置文件

vim jvm.config

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError

6）Presto可以支持多个数据源catalog，这里我们配置支持Hive的数据源，配置一个Hive的catalog

mkdir catalog
vim hive.properties 

## 添加如下内容
connector.name=hive-hadoop2
#在hive中，有metastore的服务，主要为第三方提供读取元数据的信息
#presto通过使用hive提供的metastore提供的服务来读取元数据
#获取元数据需要url，driver驱动，class，username，password
hive.metastore.uri=thrift://hadoop102:9083

7）将hadoop102上的presto同步到hadoop103、hadoop104
8）分发之后，分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性，node id每个节点都不一样。

[kele@hadoop102 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/opt/module/presto/data

[kele@hadoop103 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffa
node.data-dir=/opt/module/presto/data

[kele@hadoop104 etc]$vim node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffffb
node.data-dir=/opt/module/presto/data

9）Presto是由一个coordinator节点和多个worker节点组成。
配置方式

hadoop102	hadoop103	hadoop104
coordinator	worker	worker

10）hadoop102上配置coordinator节点
进入 etc/config.properties

添加内容如下
coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery-server.enabled=true
discovery.uri=http://hadoop102:8881

（2）hadoop103、hadoop104上配置worker节点,进入 etc/config.properties

添加内容如下
coordinator=false
http-server.http.port=8881
query.max-memory=50GB
discovery.uri=http://hadoop102:8881

11）在hadoop102的/opt/module/hive目录下，启动Hive Metastore，用kele角色，后台启动

[kele@hadoop102 hive]$
nohup bin/hive --service metastore >/dev/null 2>&1 &

12）分别在hadoop102、hadoop103、hadoop104上启动Presto Server

（1）如果前台启动Presto，控制台显示日志

[kele@hadoop102 presto]$ bin/launcher run
[kele@hadoop103 presto]$ bin/launcher run
[kele@hadoop104 presto]$ bin/launcher run

（2）如果后台启动Presto

[kele@hadoop102 presto]$ bin/launcher start
[kele@hadoop103 presto]$ bin/launcher start
[kele@hadoop104 presto]$ bin/launcher start

13）日志查看路径

/opt/module/presto/data/var/log

Client安装

1、使用jar包启动客户端

java -jar presto-cli.jar --server hadoop102:8881 --catalog hive --schema default

启动

presto为什么比hive快那么多 presto比spark快_presto为什么比hive快那么多_02

注意：

1、Presto不支持读取Text + Lzo的方式，

presto为什么比hive快那么多 presto比spark快_presto_03

2、如果需要以lzo的方式读取数据，需要添加hadoop-lzo的jar包到presto的hive-hadoop2的目录下

cp /opt/module/hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar /opt/module/presto/plugin/hive-hadoop2/

四、界面

使用presto连接jdbc，适用于dberver使用即席查询时连接

jdbc连接jar包已上传

注意：Presto使用的是Presto支持的SQL语法和函数！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android 13 activity穿透 android 内网穿透

下一篇：java 删除浏览器storage java io流删除文件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

presto为什么比hive快那么多 presto比spark快

presto为什么比hive快那么多 presto比spark快

一、Presto架构

二、优缺点

优点

缺点

三、安装

四、界面

51CTO博客