江南独孤客的博客_大数据篇,数据库篇,Linux

按发布时间
按阅读量
2021年06月 25篇

全部618篇
2024年15篇 08月1篇 07月1篇 06月2篇 05月1篇 04月1篇 03月4篇 02月2篇 01月3篇 2023年50篇 12月3篇 11月6篇 10月3篇 09月2篇 08月4篇 07月5篇 06月1篇 04月7篇 03月4篇 02月10篇 01月5篇 2022年300篇 12月2篇 11月11篇 10月20篇 09月10篇 08月3篇 07月16篇 06月26篇 05月51篇 04月64篇 03月27篇 02月48篇 01月22篇 2021年253篇 12月37篇 11月18篇 10月31篇 09月66篇 08月53篇 07月21篇 06月25篇 05月2篇
推荐/精选
全部

全部原创转载翻译

impala的session无法释放的自动清理脚本

#!/usr/bin/env python# -*- coding: utf8 -*-import requestsfrom bs4 import BeautifulSoup# 配置ip地址，格式为ips = ["ip", "ip", "ip"]for ip in ips: url = 'http://' + ip + ':25000/sessions' try: pri

impala

置顶原创 2021-06-01 14:01:25 1422 阅读

如何给Hadoop集群划分角色

规划

cdh

置顶原创 2021-06-01 13:37:10 1745 阅读

CDH的组件java调优建议值

hadoop组件部件内存hdfsJournalNodenamenode"-XX:+UseParNewGC -Xmx4096m -Xms4096m"datanodeJava Heap：8ghivehiveserver2100连接数Java Heap：30GHive Metastore100连接数Java Heap：30Gbeeline cliJava Heap：2ghive on sparkhive

CDH

置顶原创精选 2021-06-01 13:31:42 925 阅读

解决CentOS删除文件后但空间没有释放

一、问题描述：zabbix监控报警，磁盘空间不足登陆服务器上查看发现使用率不足20%，但清理完垃圾日志以后磁盘空间还是没有释放以下是处理未释放空间的步骤二、操作步骤1、查看磁盘空间[root@Test ~]# df -THFilesystem Type Size Used Avail Use% Mounted on/dev/vda1 ext4 212G

空间无法释放

置顶原创 2021-06-01 13:26:15 4416 阅读

从0开始建设大数据平台

1、大数据平台前期调研 1.1业务需求调研从运维角度看，主要调研公司的有哪业务的数据运营需求，是离线计算需求还是实时计算需求。 1）离线计算组件需求：数据采集组件：FlinkX/DataX 数据存储组件：HDFS 数据加工组件：YARN/Hive/Spark/Flink 数据服务组件：HBase/Elasticsearch/Geomesa（时空数据库）/Kylin

hadoop

原创精选 2021-06-24 15:59:05 1208 阅读

CDH下安装的hbase调参

hbase

原创 2021-06-07 16:47:47 279 阅读

Cloudera官方的版本源有需要的给我留言

CDH

原创 2021-06-03 16:43:36 304 阅读

Hadoop——集群参数配置详解

一、配置文件在hadoop集群中，需要配置的文件主要包括四个，分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml，这四个文件分别是对不同组件的配置参数，主要内容如下表所示：二、配置时重要参数1、core-site.xml2、hdfs-site.xml3、mapred-site.xml4、yarn-site.xml 三、搭建集群

参数

转载 2021-06-03 11:08:47 691 阅读

如何在CDP DC7.0.3安装Range

文档编写目的在前面的文章中，Fayson介绍了《如何在Redhat7.6中安装CDP DC7.0.3》和《如何在CDP DC7.0.3集群部署Flink1.9.1》，基于前面的集群环境，本篇文章Fayson主要介绍如何在CDP DC7.0.3集群安装Ranger。文档概述1.如何在CDP DC集群安装启用Ranger服务2.运行一个Flink示例验证测试环境1.操作系统Redhat7.22.CDP

ranger

转载 2021-06-03 09:14:18 1343 阅读

如何为Ranger集成RedHat7的OpenLDAP认证

文档编写目的在企业的生产环境中大多使用了OpenLDAP来进行用户的管理，因此本篇文章主要介绍如何在CDP DC7.0.3集群上为Ranger集成RedHat7的OpenLDAP，集成只针对使用LDAP用户登陆Ranger的Web UI，关于Ranger的安装，请参考之前的文章《0752-7.0.3-如何在CDP DC7.0.3安装Ranger》。测试环境1.操作系统Redhat7.62.集群版本

ranger

转载 2021-06-03 09:12:33 1213 阅读

CDH6.2离线安装（整理版）

1.概述　　CDH，全称Cloudera's Distribution, including Apache Hadoop。是Hadoop众多分支中对应中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，提供了Hadoop的核心（可扩展存储、分布式计算），最为重要的是提供基于web的用户界面。　　CDH的优点：版本划分清晰，更新速度快，支持Kerberos安全认证，支持多

cdh

转载 2021-06-03 09:00:20 2465 阅读

Hive：HiveQL中如何排查数据倾斜问题

原文：https://blog.csdn.net/u012151684/article/details/77074356如果某个key下记录数远超其他key，在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下：查询每个appid打开的次数，需要排除掉作弊的imei。说明：表cheat_imei，7500万条，无大key，为作弊的imei。表

数据倾斜

转载 2021-06-02 15:42:31 682 阅读

解决hive小文件过多问题

小文件产生原因hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件，多次插入少量数据就会出现多个小文件，但是这种方式生产环境很少使用，可以说基本没有使用的通过load方式加载数据

小文件

转载 2021-06-02 15:35:44 325 阅读

检查flink任务的脚本

#!/usr/bin/python#coding=utf8import jsonimport requestsimport sysclass checkflink: def getflinkid(self,name,defs): try: self.name = name res = requests.get('http://ip:7

flink

原创 2021-06-02 14:34:28 704 阅读

检查yarn的任务

#!/usr/bin/env python# -*- coding:utf-8 -*-from dingtalkchatbot.chatbot import DingtalkChatbotimport jsonimport requestsimport datetimeheaders = {'Content-Type': 'application/json;charset=utf-8'}# dd_

python

原创 2021-06-02 14:29:51 745 阅读

如何升级Cloudera Manager和CDH

1.文档编写目的本文档讲述如何升级Cloudera Manager和CDH，通过本文档，您将学习到以下知识：1.如何对Cloudera Manager进行停机升级2.如何对CDH进行停机升级3.如何在不影响集群作业的情况下进行CDH滚动升级文档主要分为以下几步：1.Cloudera升级概述2.Minor版本Cloudera Manager和CDH升级3.Maintenance版本滚动升级CDH4.

cdh

转载 2021-06-02 09:48:33 791 阅读

CDH5与CDH6对比

1.文档编写目的Cloudera于2018年8月30日正式发布CDH6.0.0，至2019年2月19日，最新的迭代版本为CDH6.1.1，可能马上就会发布CDH6.2。CDH6是基于Hadoop3同时包含大量其他组件的大版本更新的发布版本，许多用户考虑到未来CDH的版本主要是基于C6，而CDH5会慢慢的停止更新，所以考虑新搭集群使用CDH6，或者想把已有的CDH5集群升级到CDH6。第一个问题就是

cdh

原创 2021-06-02 09:30:30 1455 阅读

大数据tensorflowonspark 进行安装和测试。

1. 概述大数据tensorflowonspark 进行安装和测试。2 .环境所选操作系统地址和软件版本节点类型Centos7.3 64位192.168.2.31（master）Java：jdk 1.8Scala:2.10.4Hadoop:2.7.3Spark:2.12.3TensorFlowOnSpark:0.8.0Python2.7MasterCentos7.3 64位192.168.2.32

python

原创 2021-06-01 17:54:51 642 阅读 1收藏

CDH日志收集上传到Cloudera导致的集群故障

需要对CDH集群关闭Collect Diagnostic Data Globally，减少资源收集信息时占用大量的资源，每到周五晚上19：00都莫名的占用大量的CPU和内存，原来是因为集群自动收集日志报告给Cloudera官方。 1.关闭收集信息的操作1.1 进入集群管理---设置1.2 允许使用情况数据收集对钩打掉，点击保存更改即可1.3 关闭自动将诊断数据发送至clou

CDH日志收集

原创 2021-06-01 14:10:53 1749 阅读

CDH组件调优参考

hadoop组件说明默认参数修改参数hdfsdfs.datanode.data.dir/data/dfs/dn/data/dfs/dndfs.journalnode.edits.dir/data/dfs/jn/data/dfs/jndfs.namenode.name.dir/data/dfs/nn/data/dfs/nnhadoop.log.dir/var/log/hadoop-hdfs/var/

CDH

原创 2021-06-01 13:30:15 3075 阅读

es单机版的部署安装

es单机版的部署安装一、简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口操作ES，也可以利用Java API。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。我们建立一

ELK

原创 2021-06-01 11:29:36 3924 阅读

Centos 7.2部署ceph

Centos 7.2部署ceph一、系统简介数据备份是数据库在硬件或软件损坏时保证数据不丢失的重要手段，CEPH作为一种分布式带冗余的存储系统，有着重要地位，以下是ceph的安装过程。ceph有四大组件： Monitors: Ceph监视器（ceph-mon）负责维护集群状态的映射，包括监视器映射，管理器映射，OSD映射和CRUSH映射。这些映射是Ceph守护进程相互协调所需的关键集群状态。监视

linux

原创 2021-06-01 11:26:48 517 阅读

模拟uuid的故障的解决过程

模拟uuid的故障的解决过程一、制造故障的过程1. cd /var/lib/cloudera-scm-agent2. mv uuid uuid.bak3. Systemctl restart cloudera-scm-agent4. 出现以下故障二、恢复的过程1. 查看故障主机的uuid号2. echo -n "51a381f0-864a-49bd-81ae-8d6aba

UUID

原创 2021-06-01 11:16:06 1016 阅读

大数据的扩容流程

一:优先级：流程申请1.服务器下来后，申请其服务器权限2.编写服务器扩容方案（平台方），方案要在生产环境升级前进行评审。3.服务器相关白名单申请（kafka，mysql，redis，RDS等）需要ping通并在确认是否申请白名单4.项目经理提交预生产流程，结束后5.项目经理提交生产流程6.流程到大数据运维手里，进行操作二:初始化服务器权限下来后进行初始化1./etc/hosts配置检查，检查所有机

扩容

原创 2021-06-01 11:09:39 520 阅读

kudu的计算公式

kudu计算公式：假设:tablet server 32台master 5台最大数据存储量为，复制和压缩后，每个tablet server 9.6TB。每个tablet server管理的tablet为3000，包含tablet的副本。基于以上限制，可以推测出一下内容：分区=每行大小*总条数<=3.2Gtablet（限制每一台tablet-server 1500个分区）,目前现在总kudu表

kudu

原创 2021-06-01 11:06:40 668 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客