#!/bin/sh export ORACLE_BASE=/data/oracle export ORACLE_HOME=$ORACLE_BASE/product/11.2.0/db_1 export ORACLE_SID=orcl export PATH=$ORACLE_HOME/bin:/usr/sbin:$PATH export DATA_DIR=/home/oracle/investDat
什么是LNMP?就是Linux+Nginx+MySQL+PHP。 CentOS常用命令在我们的使用中经常被使用。所以对一些经常使用又很重要的CentOS常用命令进行了下面的收集。这里简单介绍这些CentOS常用命令。 一:使用CentOS常用命令查看cpumore/proc/cpuinfo|grep“modelname”grep“modelname”/proc/cpuinfo[root@loca
1. 有关Gentoo Linux的安装 1.a. 介绍 欢迎! 首先,欢迎使用Gentoo Linux系统!你将进入选择和性能的世界中。Gentoo处处给用户提供选择。当安装Gentoo时,这点你会经常感受到。你可以选择自己编译多少软件,可以选择怎样安装Gentoo,可以选择使用什么系统日志程序等等。 Gentoo是一个快速和现代的半发行版,设计理念干净灵活。Gent
今天初始化CDH的scm的报权限拒绝,提示mysql的root账号被拒绝。 2.检测msyql数据库发现,root没有远程访问的权限 use mysql select user, host from user; 解决办法 : grant all privileges on *.* to 'root'@'%' identified by 'root账号的密码' flush privileges;
今天早上来到公司,看了一下hue平台执行的时候,出现以下报错,然后我就去平台上查看日志,找了半天也没有找到,以为是spark的问题。 然后在去hive上去看日志,发现了报错如下(原来是与atlas集成的时候,把阿里的oss的jar也移了过来,因为hive设置辅助jar只能设置一个路径): 查看了一下,无权限,然后去服务器上开通相关的权限 原因是因为这几个包是与aliyun的oss集成的包,hi
开启THP精髓是提高内存分配效率,减少CPU SYS开销。 1、首先检查THP的启用状态: [root@localhost ~]# cat /sys/kernel/mm/transparent_hugepage/defrag[always] madvise never[root@localhost ~]# cat /sys/kernel/mm/transparent_hugepage/enable
secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先将namenode的fsimage与edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将secondaryNamenode当中的fsimage与edits拷贝
一、hdfs配置: 进入hdfs---配置---搜:hdfs-site.xml 的 HDFS 服务高级配置代码段(安全阀) xml的配置hdfs以下信息: xml信息 <property> <name>dfs.client.failover.proxy.provider.offline</name> <value>org.apa
vim ~/.bash_profile 添加以下内容 alias sqlmap='Python /usr/local/sqlmap-dev/sqlmap.py'alias python='/Library/Frameworks/Python.framework/Versions/3.7/bin/python3' source ~/.bash_profile
https://maven.aliyun.com/mvn/search
Flink on Yarn 模式下,业务应用内部配置的 logback.xml/log4j.properties 是无法加载的,Flink 会默认采用安装目录下的 $FLINK_HOME/logback.xml/log4j.properties 作为统一的 logger 定义文件。 Flink 提供的 logback.xml/log4j.properties 只配置了 rootLogger,如果不
Using CGroups with YARN CGroups Configuration CGroups and Security CGroups is a mechanism for aggregating/partitioning sets of tasks, and all their future children, into hierarchical groups with speci
一、聚合日志介绍 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container 任务日志存在在各个NodeManager上,保存在"yarn.nodemanager.log-dirs"配置的目录下,保存的时间由"yarn.nodemanager.
一、Hadoop版本综述 不收费的 Hadoop 版本主要有三个(均是国外厂商),分别是: Apache(最原始的版本,所有发行版均基于这个版本进行改进) Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH) Hortonworks版本(Hortonworks Data Platform,简称HDP) 对于国
yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExecutor可以通过cgroup来隔离cpu资源 cgroup cgroup是系统提供的资源隔离功能,可以隔离系统的多种类型的资源,yarn只用来隔离cpu资源 安装cgroup 默认系统已经安装了cg
/** * 可以用来自动创建文档的注释 */public class Hello { public static void main(String[] args) { // 向屏幕输出文本: System.out.print("Hello World"); /* 注释内容 注释结束 */ }} //
一、yanr的flink任务被kill和fail的告警 1.需要安装的python3的pip3库(添加钉钉机器人略,自己百度) pip3 install apscheduler pip3 install dingtalkchatbot pip3 install chatbot 2.需要用dingdinglkchatbot下的chatbot.py替换/usr/local/lib/python3.
前言在正常的CDH6.1后台运行spark-shell进入scala交互界面报错。 报错信息:报错信息如下: Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells. at org.apache.spark.deploy.
1.上传waterdrop1.5.1到opt目录 2.解决压缩 3.设置waterdrop的环境变量 4.打开 waterdrop-env.sh 注意:SPARK_HOME的变更设置成CDH6.3.0的spark的目录位置 SPARK_HOME=/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/spark 5.测试wate
What's New in Cloudera Manager 7.3.1 New features and changed behavior for Cloudera Manager 7.3.1. New Ranger Configuration Option for Audit Log Archival You can now use Cloudera Manager to configure
概述Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。 什么是Hive老规矩:官网地址Hive wiki.先来谈谈自己的理解:有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解决问题,其实这些人
1.hive.metastore.warehouse.dirHive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms让表目录继承仓库或数据库目录的权限,替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Imp
在CDH中使用Hive时,为了统一数据文件的存储格式,推荐使用Parquet格式的文件存储,这样做也是为了能够同时能够兼容Impala的查询。有些用户在Hive中创建大量的ORC格式的表,并使用了DATE数据类型,这会导致在Impala中无法进行正常的查询,因为Impala不支持DATE类型和ORC格式的文件。本篇文章Fayson主要介绍如何通过脚本将ORC格式且使用了DATE类型的Hive表转为
Hue中使用Hive和Impala进行查询,在使用完Hue后退出登录,会出现Hive和Impala的暂用的资源未释放。本篇文章Fayson主要针对该问题在Hue中调优Impala和Hive查询,该调优方式适用于CDH5.2及以后版本。 内容概述 1.场景描述及测试用户准备 2.Impala资源池和放置规则配置 3.放置规则验证及总结 测试环境 1.CM和CDH版本为5.15 2
在之前的文章中,Fayson 在《CDH6.3的新功能》 中提到Impala 的 Automatic Invalidate/Refresh Metadata 新功能,本文主要介绍如何配置Impala基于事件自动同步HMS元数据。 测试环境 1.CM和CDH版本为6.3.3 2.操作系统版本为RedHat 7.2 操作步骤进入CM界面 > Hive > 配置 > 搜索 启用
下表中列出了 Impala 是用的 TCP 端口。在部署 Impala 之前,请确保每个系统上这些端口都是打开的。 组件 服务 端口 访问需求 备注 Impala Daemon Impala 守护进程前端端口 21000 外部 被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动 用于传递命令和接收结果。参见 Configuring Im
目前集群存于一个非常不健康的状态,主要问题是小文件太多,单个DataNode的block数量阈值是500,000,而现在单个DataNode的block为2,631,218,约为阈值的5倍,现在所有DataNode都处于黄色不健康状态。 小文件问题会直接带来NameNode的压力巨大,从而导致HDFS的稳定性,同时对HDFS日常的数据读写带来性能下降。目前已可以看到集群的NameNode频繁出
1.文档编写目的 之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》,这种方案也有一些弊端,如HAProxy本身就是单点,虽然可以通过Keepalived来实现HAProxy的高可用,但这样配置会比较麻烦并且需要多部署两个组件,增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件,本文主要讲述如何使用Zookeep
文档概述 1.获取元数据信息 2.数据可视化 3.总结 测试环境 1.操作系统Redhat7.6 2.CDH5.16.2 3.使用root用户操作 4.MariaDB5.5.60 2.获取元数据信息1.Hive数据库信息如下 2.登陆元数据库(也可以使用hive用户,但是没有权限把文件写入本地,可以采用记录会话的功能提取查询的信息) [root@cdp1 ~]# mysql -u r
1CM/CDH6.3及更高版本支持OpenJDK11你现在可以在ClouderaEnterprise6.3中使用OpenJDK11,在集群中安装OpenJDK11时,默认使用G1GC为CDH大多数服务作为垃圾回收机制,这可能需要进行调优以避免内存过量使用。OPSAPS50993,OPSAPS49390,OPSAPS516432ApacheHadoop2.1YARN1.YARNDistributed
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号