如果了解dremio 新版本的话,推荐使用的就是分布式存储,同时dremio 也提供了不少的支持,比如hdfs,s3,nas。。。
对于分布式存储的配置,官方文档说明的是基于core-ste.xml ,如果不了解内部机制的话,可能比较疑惑,为什么需要这个配置
以下进行一些说明

分布式配置参考

minio 格式的

  • core-site.xml
<?xml version="1.0"?>
<configuration>
<property>
    <name>fs.dremioS3.impl</name>
    <description>The FileSystem implementation. Must be set to com.dremio.plugins.s3.store.S3FileSystem</description>
    <value>com.dremio.plugins.s3.store.S3FileSystem</value>
</property>
<property>
    <name>fs.s3a.access.key</name>
    <description>Minio server access key ID.</description>
    <value>ACCESS_KEY</value>
</property>
<property>
    <name>fs.s3a.secret.key</name>
    <description>Minio server secret key.</description>
    <value>SECRET_KEY</value>
</property>
<property>
    <name>fs.s3a.aws.credentials.provider</name>
    <description>The credential provider type.</description>
    <value>org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider</value>
</property>
<property>
    <name>fs.s3a.endpoint</name>
    <description>Endpoint can either be an IP or a hostname, where Minio server is running . However the endpoint value cannot contain the http(s) prefix. E.g. 175.1.2.3:9000 is a valid endpoint. </description>
    <value>ENDPOINT</value>
</property>
<property>
    <name>fs.s3a.path.style.access</name>
    <description>Value has to be set to true.</description>
    <value>true</value>
</property>
<property>
    <name>dremio.s3.compat</name>
    <description>Value has to be set to true.</description>
    <value>true</value>
</property>
<property>
    <name>fs.s3a.connection.ssl.enabled</name>
    <description>Value can either be true or false, set to true to use SSL with a secure Minio server.</description>
    <value>SSL_ENABLED</value>
</property>
</configuration>
<configuration>

内部处理

因为dremio内部处理也是基于存储插件的,对于分布式文件系统存储插件,内部的FileSystem包装的就是hdfs 的(我以前也介绍过dremio 的FileSystem,可以查看参考链接)
同时dremio 为了方便处理,包装了自己的schema,对于hdfs 的api (Configuration 类)默认会进行core-site.xml 文件的加载

如下图

dremio 分布式存储配置与hdfs core-site.xml 的关系简单说明_apache

说明

注意一些配置参数,比如temp 文件路径,如果tmp系统空间有限,应该配置其他目录否则对于一些查询会有一些影响

参考资料

sabot/kernel/src/main/java/com/dremio/exec/store/dfs/MetadataStoragePluginConfig.java
sabot/kernel/src/main/java/com/dremio/exec/store/dfs/MayBeDistFileSystemPlugin.java

https://hadoop.apache.org/docs/current/api/org/apache/hadoop/conf/Configuration.html
https://docs.dremio.com/current/get-started/cluster-deployments/customizing-configuration/dremio-conf/dist-store-config/