江南独孤客的博客_大数据篇,数据库篇,Linux(7)

按发布时间
按阅读量
2021年 253篇

全部656篇
2025年34篇 09月3篇 08月8篇 07月2篇 06月3篇 05月10篇 04月6篇 03月2篇 2024年19篇 12月3篇 11月1篇 08月1篇 07月1篇 06月2篇 05月1篇 04月1篇 03月4篇 02月2篇 01月3篇 2023年50篇 12月3篇 11月6篇 10月3篇 09月2篇 08月4篇 07月5篇 06月1篇 04月7篇 03月4篇 02月10篇 01月5篇 2022年300篇 12月2篇 11月11篇 10月20篇 09月10篇 08月3篇 07月16篇 06月26篇 05月51篇 04月64篇 03月27篇 02月48篇 01月22篇 2021年253篇 12月37篇 11月18篇 10月31篇 09月66篇 08月53篇 07月21篇 06月25篇 05月2篇
推荐/精选
全部

全部原创转载翻译

简单的oracle备份脚本

#!/bin/sh export ORACLE_BASE=/data/oracle export ORACLE_HOME=$ORACLE_BASE/product/11.2.0/db_1 export ORACLE_SID=orcl export PATH=$ORACLE_HOME/bin:/usr/sbin:$PATH export DATA_DIR=/home/oracle/investDat

脚本

原创 2021-08-27 07:47:07 294 阅读

CentOS常用命令

什么是LNMP？就是Linux+Nginx+MySQL+PHP。 CentOS常用命令在我们的使用中经常被使用。所以对一些经常使用又很重要的CentOS常用命令进行了下面的收集。这里简单介绍这些CentOS常用命令。一：使用CentOS常用命令查看cpumore/proc/cpuinfo|grep“modelname”grep“modelname”/proc/cpuinfo[root@loca

centos

原创 2021-08-27 07:45:30 291 阅读

有关Gentoo Linux的安装

1. 有关Gentoo Linux的安装 1.a. 介绍欢迎！首先，欢迎使用Gentoo Linux系统！你将进入选择和性能的世界中。Gentoo处处给用户提供选择。当安装Gentoo时，这点你会经常感受到。你可以选择自己编译多少软件，可以选择怎样安装Gentoo，可以选择使用什么系统日志程序等等。 Gentoo是一个快速和现代的半发行版，设计理念干净灵活。Gent

gentoo

原创 2021-08-27 07:42:44 523 阅读

scm在初始化的报错解决处理的过程

今天初始化CDH的scm的报权限拒绝，提示mysql的root账号被拒绝。 2.检测msyql数据库发现,root没有远程访问的权限 use mysql select user, host from user; 解决办法： grant all privileges on *.* to 'root'@'%' identified by 'root账号的密码' flush privileges;

cdh

原创 2021-08-26 15:27:40 545 阅读

记录一次hive on saprk执行报错处理的过程

今天早上来到公司，看了一下hue平台执行的时候，出现以下报错，然后我就去平台上查看日志，找了半天也没有找到，以为是spark的问题。然后在去hive上去看日志，发现了报错如下（原来是与atlas集成的时候，把阿里的oss的jar也移了过来，因为hive设置辅助jar只能设置一个路径）：查看了一下，无权限，然后去服务器上开通相关的权限原因是因为这几个包是与aliyun的oss集成的包，hi

hadoop

原创精选 2021-08-24 10:32:55 944 阅读 1点赞

Centos7禁用THP（Transparent HugePages）(大数据要关闭此项)

开启THP精髓是提高内存分配效率，减少CPU SYS开销。 1、首先检查THP的启用状态： [root@localhost ~]# cat /sys/kernel/mm/transparent_hugepage/defrag[always] madvise never[root@localhost ~]# cat /sys/kernel/mm/transparent_hugepage/enable

THP

原创精选 2021-08-23 15:29:26 10000+阅读 2点赞 2收藏

hdfs namenode故障恢复（namenode中fsimage与edits文件损坏）

secondaryNamenode对namenode当中的fsimage和edits进行合并时，每次都会先将namenode的fsimage与edits文件拷贝一份过来，所以fsimage与edits文件在secondarNamendoe当中也会保存有一份，如果namenode的fsimage与edits文件损坏，那么我们可以将secondaryNamenode当中的fsimage与edits拷贝

hdfs

原创 2021-08-21 18:16:54 2365 阅读

数据湖的环境共享datalake元数据共享方案

一、hdfs配置：进入hdfs---配置---搜：hdfs-site.xml 的 HDFS 服务高级配置代码段（安全阀） xml的配置hdfs以下信息： xml信息 <property> <name>dfs.client.failover.proxy.provider.offline</name> <value>org.apa

cdh

原创精选 2021-08-21 17:26:30 578 阅读

macos安全修改python环境

vim ~/.bash_profile 添加以下内容 alias sqlmap='Python /usr/local/sqlmap-dev/sqlmap.py'alias python='/Library/Frameworks/Python.framework/Versions/3.7/bin/python3' source ~/.bash_profile

python

原创 2021-08-20 13:09:55 460 阅读

阿里云的maven仓库地址

https://maven.aliyun.com/mvn/search

开发

原创 2021-08-16 14:22:46 443 阅读

Flink on Yarn 日志输出

Flink on Yarn 模式下，业务应用内部配置的 logback.xml/log4j.properties 是无法加载的，Flink 会默认采用安装目录下的 $FLINK_HOME/logback.xml/log4j.properties 作为统一的 logger 定义文件。 Flink 提供的 logback.xml/log4j.properties 只配置了 rootLogger，如果不

flink

转载 2021-08-16 13:40:52 3906 阅读

Using CGroups with YARN（官网转载）

Using CGroups with YARN CGroups Configuration CGroups and Security CGroups is a mechanism for aggregating/partitioning sets of tasks, and all their future children, into hierarchical groups with speci

yarn

原创 2021-08-16 13:32:18 699 阅读

Yarn聚合日志

一、聚合日志介绍日志聚集是YARN提供的日志中央化管理功能，它能将运行完成的Container任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container 任务日志存在在各个NodeManager上，保存在"yarn.nodemanager.log-dirs"配置的目录下，保存的时间由"yarn.nodemanager.

yarn

原创 2021-08-16 13:11:52 1416 阅读

Apache Hadoop与CDH、HDP的比较

一、Hadoop版本综述不收费的 Hadoop 版本主要有三个（均是国外厂商），分别是： Apache（最原始的版本，所有发行版均基于这个版本进行改进） Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称CDH） Hortonworks版本(Hortonworks Data Platform，简称HDP）对于国

hadoop

原创 2021-08-16 12:36:56 3185 阅读

yarn使用cgroup隔离cpu资源

yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExecutor可以通过cgroup来隔离cpu资源 cgroup cgroup是系统提供的资源隔离功能,可以隔离系统的多种类型的资源,yarn只用来隔离cpu资源安装cgroup 默认系统已经安装了cg

yarn

原创 2021-08-13 11:29:25 674 阅读

Java程序基本结构

/** * 可以用来自动创建文档的注释 */public class Hello { public static void main(String[] args) { // 向屏幕输出文本： System.out.print("Hello World"); /* 注释内容注释结束 */ }} //

java

转载 2021-08-12 20:21:11 229 阅读

yarn任务报错任务和yarn超时长1小时任务的

一、yanr的flink任务被kill和fail的告警 1.需要安装的python3的pip3库（添加钉钉机器人略，自己百度） pip3 install apscheduler pip3 install dingtalkchatbot pip3 install chatbot 2.需要用dingdinglkchatbot下的chatbot.py替换/usr/local/lib/python3.

任务告警开发

原创精选 2021-08-09 13:58:11 1572 阅读 2收藏

CDH6.3.0 SPARK-SHELL启动报错

前言在正常的CDH6.1后台运行spark-shell进入scala交互界面报错。报错信息：报错信息如下： Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells. at org.apache.spark.deploy.

spark

原创 2021-08-06 15:14:41 1064 阅读

CDH6.3.0安装配置waterdrop1.5.1local和yarn提交

1.上传waterdrop1.5.1到opt目录 2.解决压缩 3.设置waterdrop的环境变量 4.打开 waterdrop-env.sh 注意：SPARK_HOME的变更设置成CDH6.3.0的spark的目录位置 SPARK_HOME=/opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0.p0.1279813/lib/spark 5.测试wate

waterdrop

原创 2021-08-05 19:02:32 868 阅读

Cloudera Manager 7.3.1新增的功能

What's New in Cloudera Manager 7.3.1 New features and changed behavior for Cloudera Manager 7.3.1. New Ranger Configuration Option for Audit Log Archival You can now use Cloudera Manager to configure

cdp

原创 2021-08-05 13:48:33 405 阅读

Hive总结篇及Hive的优化

概述Hive学习也有一段时间了，今天来对Hive进行一个总结，谈谈自己的理解，作者还是个小白，有不对的地方请大家指出相互学习，共同进步。今天来谈一谈什么是Hive，产生背景，优势等一系列问题。什么是Hive老规矩：官网地址Hive wiki.先来谈谈自己的理解：有些人可能会说Hive不就是写SQL的吗，那我们其实可以从另一个角度来理解:Hive就是那么强大啊，只要写SQL就能解决问题，其实这些人

hive

转载 2021-08-03 23:48:33 748 阅读

CDH常用优化配置

1.hive.metastore.warehouse.dirHive 仓库目录是在 HDFS 中存储 Hive 表格的位置。注意此仓库目录的 Hive 默认值为“/user/hive/warehouse”。 2.hive.warehouse.subdir.inherit.perms让表目录继承仓库或数据库目录的权限，替代使用从 dfs umask 派生权限创建。该操作允许通过 Hive 将 Imp

hive

原创精选 2021-08-03 23:39:39 1294 阅读

如何将ORC格式且使用了DATE类型的Hive表转为Parquet表

在CDH中使用Hive时，为了统一数据文件的存储格式，推荐使用Parquet格式的文件存储，这样做也是为了能够同时能够兼容Impala的查询。有些用户在Hive中创建大量的ORC格式的表，并使用了DATE数据类型，这会导致在Impala中无法进行正常的查询，因为Impala不支持DATE类型和ORC格式的文件。本篇文章Fayson主要介绍如何通过脚本将ORC格式且使用了DATE类型的Hive表转为

cdh

转载 2021-08-03 22:42:55 1674 阅读

如何在Hue中调优Impala和Hive查询

Hue中使用Hive和Impala进行查询，在使用完Hue后退出登录，会出现Hive和Impala的暂用的资源未释放。本篇文章Fayson主要针对该问题在Hue中调优Impala和Hive查询，该调优方式适用于CDH5.2及以后版本。内容概述 1.场景描述及测试用户准备 2.Impala资源池和放置规则配置 3.放置规则验证及总结测试环境 1.CM和CDH版本为5.15 2

cdh

转载 2021-08-03 19:46:32 1991 阅读

如何配置impala自动同步HMS元数据

在之前的文章中，Fayson 在《CDH6.3的新功能》中提到Impala 的 Automatic Invalidate/Refresh Metadata 新功能，本文主要介绍如何配置Impala基于事件自动同步HMS元数据。测试环境 1.CM和CDH版本为6.3.3 2.操作系统版本为RedHat 7.2 操作步骤进入CM界面 > Hive > 配置 > 搜索启用

cdh

转载 2021-08-03 19:20:01 839 阅读

impala端口

下表中列出了 Impala 是用的 TCP 端口。在部署 Impala 之前，请确保每个系统上这些端口都是打开的。组件服务端口访问需求备注 Impala Daemon Impala 守护进程前端端口 21000 外部被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动用于传递命令和接收结果。参见 Configuring Im

port

转载 2021-08-03 19:17:20 781 阅读

如何使用Hive合并小文件

目前集群存于一个非常不健康的状态，主要问题是小文件太多，单个DataNode的block数量阈值是500,000，而现在单个DataNode的block为2,631,218，约为阈值的5倍，现在所有DataNode都处于黄色不健康状态。小文件问题会直接带来NameNode的压力巨大，从而导致HDFS的稳定性，同时对HDFS日常的数据读写带来性能下降。目前已可以看到集群的NameNode频繁出

hive

原创 2021-08-03 18:48:59 5609 阅读

zk实现hive的高可用

1.文档编写目的之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》，这种方案也有一些弊端，如HAProxy本身就是单点，虽然可以通过Keepalived来实现HAProxy的高可用，但这样配置会比较麻烦并且需要多部署两个组件，增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件，本文主要讲述如何使用Zookeep

cdh

转载 2021-08-03 15:15:06 1860 阅读

本篇文章主要介绍如何在CDH 5.16.2集群中获取所有Hive表的分区数、小文件数量、表大小。

文档概述 1.获取元数据信息 2.数据可视化 3.总结测试环境 1.操作系统Redhat7.6 2.CDH5.16.2 3.使用root用户操作 4.MariaDB5.5.60 2.获取元数据信息1.Hive数据库信息如下 2.登陆元数据库(也可以使用hive用户，但是没有权限把文件写入本地，可以采用记录会话的功能提取查询的信息) [root@cdp1 ~]# mysql -u r

cdh

转载 2021-08-03 11:25:16 1035 阅读

cdh 6.3.0的新特性

1CM/CDH6.3及更高版本支持OpenJDK11你现在可以在ClouderaEnterprise6.3中使用OpenJDK11，在集群中安装OpenJDK11时，默认使用G1GC为CDH大多数服务作为垃圾回收机制，这可能需要进行调优以避免内存过量使用。OPSAPS50993,OPSAPS49390,OPSAPS516432ApacheHadoop2.1YARN1.YARNDistributed

cdh

原创 2021-08-03 10:28:34 1247 阅读

欢迎

首页
2
3
4
5
6
7
8
9
共253条记录

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客