江南独孤客的博客_大数据篇,数据库篇,Linux原创(5)

按发布时间
按阅读量
时间轴

全部656篇
2025年34篇 09月3篇 08月8篇 07月2篇 06月3篇 05月10篇 04月6篇 03月2篇 2024年19篇 12月3篇 11月1篇 08月1篇 07月1篇 06月2篇 05月1篇 04月1篇 03月4篇 02月2篇 01月3篇 2023年50篇 12月3篇 11月6篇 10月3篇 09月2篇 08月4篇 07月5篇 06月1篇 04月7篇 03月4篇 02月10篇 01月5篇 2022年300篇 12月2篇 11月11篇 10月20篇 09月10篇 08月3篇 07月16篇 06月26篇 05月51篇 04月64篇 03月27篇 02月48篇 01月22篇 2021年253篇 12月37篇 11月18篇 10月31篇 09月66篇 08月53篇 07月21篇 06月25篇 05月2篇
推荐/精选
原创

全部原创转载翻译

部署presto报Presto requires Java 8u151+ (found 1.8.0_144)解决方案

安装presto的时候，报jdk版本不兼容的问题解决方案，提示最低需要java 8u151及以上版本vim /data/presto/bin/launcher export JAVA_HOME=/opt/jdk1.8.0_151export PATH=$JAVA_HOME/bin:$PATHjava -versionexec "$(dirname "$0")/launcher.py" "$@" #

java

问题解决方案

vim

置顶原创精选 2022-09-14 06:46:31 810 阅读

hive使用kerberos报timeout的问题

解决方案排查了一下krb5.conf文件，发现我之前的配置少了一行配置udp_preference_limit = 1这个配置，加上之后问题解决

解决方案

置顶原创 2022-09-02 21:13:02 446 阅读

原生Hadoop的Hive出现中文乱码的解决方案

一、登录mysql操作use hive;（1）修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;（2）修改

mysql

hive

字段

置顶原创 2022-09-01 22:48:11 261 阅读

flink提交任务的时候出现无法分配资源的问题

flink在提交任务到yarn上的时候，提示yarnCluster的问题,查看yarn上的资源是够的解决方案：查看了yarn的主从节点进行了切换导致无法分配资源，重启rm节点，把rm节点还原到原来的状态后，问解决。

flink

解决方案

重启

置顶原创 2022-08-24 10:55:44 303 阅读

hdfs开启kerberos认证报错

apache

hadoop

java

置顶原创 2022-08-18 22:11:40 2869 阅读

Hadoop Yarn Linux Container Executor的报错

原生的启用nodemanager报错如下cat /var/log/hadoop/hadoop-root-nodemanager-cd-cp-standby20.wxxdc.log 2022-08-18 15:12:57,355 INFO org.apache.hadoop.yarn.server.nodemanager.NodeManager: STARTUP_MSG: /************

hadoop

hdfs

jar

置顶原创 2022-08-18 21:40:52 1161 阅读

Flink和Spark的差异

SparkStreamingFlink定义弹性分布式数据集，并非真正的实时计算真正的实时计算，就像storm一样，但flink同时支持有限的数据流计算(批处理)高容错基于RDD和checkpoint比较沉重checkpoint(快照)，比较轻量级内存管理JVM相关操作显露给用户Flink在JVM中实现的是自己的内存管理延时中等100ms低10ms

flink

实时计算

内存管理

置顶原创 2022-07-20 17:26:19 180 阅读

大数据的4代计算引擎

1代:Hadoop MapReduce批处理Mapper、Reducer2代:DAG框架(Oozie、Tez) Tez+MapReduce批处理1个 Tez = MR(2) +....+MR(n)相比MR效率有所提升。3代:Spark批处理、流处理、SQL高层API支持自带DAG 内存迭代计算、性能较之前大幅提升4代:Flink批处理、流处理、SQL高层API支持自带DAG 流式计算性能更高、

批处理

mapreduce

流处理

置顶原创 2022-07-20 17:11:53 282 阅读

大数据技术之DolphinScheduler

架构设计1.1系统架构图1.2启动流程图1.3架构说明MasterServerMasterServer采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交监控，并同时监听其它MasterServer和WorkerServer的健康状态。 MasterServer服务启动时向Zookeeper注册临时节点，通过监听Zookeeper临时节点变化来进行容错处

hadoop

mysql

java

置顶原创精选 2022-07-19 14:07:24 2973 阅读

CDH集群搭建笔记

企业：第一个方面：数据分析第二个方面：数据检索基本组件： * Zookeeper 分布式协作框架节点数目测试集群：3 个生产集群： >> 小型集群, 3 个或者 5个 >> 中型机群，５　个　或者　７个 >> 大型机群, 奇数个 * HDFS 存储海量数据 * YARN 集群资源管理资源调度 * MapReduce 并行计算框架思想：分而治之

cloudera

hive

置顶原创 2022-07-18 09:57:23 598 阅读 1点赞

Clickhouse服务器CPU 99.99%的处理过程

进入服务器，查询正在执行任务的语句SELECT query_id,user, query FROM system.processes;-- 通过上面指令获取到进程相关信息后，可以用query_id条件kill进程KILL QUERY WHERE query_id='67cadc87-34b2-4b81-8f8c-087485c922af' -- 杀死default用户下的所有进程KILL QUE

服务器

客户端

解决方案

置顶原创精选 2022-07-15 15:18:36 6082 阅读

Hive on Tez改用beeline客户端报错的解决办法

问题现象：就是beeline客户端连接hive的时候更换引擎为tez执行报错，用mr就不报错，同样的语句在hive cli中，更换引擎为tez不报错，mr引擎执行也不报错解决方案：之前这个配置为false就报错改成true

hive

客户端

报错解决

置顶原创 2022-07-15 11:04:14 620 阅读

Yarn开启ACL用户认证之后无法查看Yarn历史任务日志解决办法

问题描述：yarn开启ACL用户认证之后，日志只有在任务执行的时候能看到，SPARK任务跑完之后，在去看日志报User[yarn] is not authorized to view the logs for container的提示解决方案：主要是原因是我开启sentry认证之后，资源池的队列用ACL进行了管理，提交的时候都是以hive用户来提交的，在ACL中只加了root忘记加hive和yar

hive

hdfs

解决方案

置顶原创精选 2022-07-07 16:25:55 1303 阅读

Seatunnel在Dolphinscheduler调度中报错

[INFO] 2022-07-06 13:12:16.714 - [taskAppId=TASK-393-81727-908774]:[238] - process has exited, execute path:/data/dolphinscheduler/exec/process/9/393/81727/908774, processId:25215 ,exitStatusCode:1 ,

java

spark

unix

置顶原创 2022-07-06 13:55:42 3439 阅读 2评论

本机使用Presto查询hive表的时候报没有root权限

提示是root账号没有权限读取这个路径解决方案：所有的hive的服务器上执行以下操作usermod -a -G hive root #把root账号加入到Hive组中重新查询：果然不在报错，问题解决。

hive

服务器

解决方案

置顶原创 2022-06-30 18:20:42 303 阅读

在Yarn上启动Flink的两种方式及区别

在Yarn启动Flink主要的两种方式：1.启动一个Yarn Session:在Yarn内部初始化一个Flink集群常驻一直运行。2.直接在Yarn上提交运行Flink作业：每次提交一个Job到Yarn集群，Yarn集群开辟资源初始化一个Flink集群

flink

初始化

置顶原创 2022-06-29 22:04:06 653 阅读

大数据技术之CM安装

Cloudera Manager1.1 cloudera manager的概念简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。1.2 cloudera manager的功能管理：对集群进行管理，如添加、删除节点等操作。监控：

cloudera

hadoop

java

置顶原创精选 2022-06-29 12:54:40 652 阅读 Word文档导入

Hadoop出现DataXceiver error processing WRITE_BLOCK operation

字面理解为文件操作超租期，实际上就是data stream操作过程中文件被删掉了。以前也遇到过，通常是因为Mapred多个task操作同一个文件，一个task完成后删掉文件导致。修改1、datanode所在的linux服务器提高文件句柄参数；2、增加HDFS的datanode句柄参数：dfs.datanode.max.transfer.threads。修改hdfs-site.xml&

hdfs

linux服务器

xml

置顶原创 2022-06-28 04:33:41 2759 阅读

hue新建账号报错解决方案

22/06/26 19:03:45 INFO client.SparkClientImpl: 22/06/26 19:03:45 INFO conf.Configuration: resource-types.xml not found22/06/26 19:03:45 INFO client.SparkClientImpl: 22/06/26 19:03:45 INFO resource.Res

spark

java

apache

置顶原创精选 2022-06-26 19:22:44 435 阅读

Hadoop 3.x 和2.x主要区别

最低Java版本从7升级到8引入纠删码(Erasure Coding)主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是，对于I/O活动相对较少冷数据集，在正常操作期间很少访问其他块副本，但仍然会消耗与第一个副本相同的资源量。纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力，因此，使用纠删码作为副本机制的改进是自

hadoop

hdfs

堆内存

置顶原创 2022-06-24 11:43:40 529 阅读

白总的需求:Flink提交的命令

1.在gw05机器上运行 nc -l 99992.切换到flink用户 sudo su - flink3.提交jar包flink run -m yarn-cluster -d -yjm 1024 -ytm 1024 -ys 2 -c com.dangbei.flink_test.wordcount.Test_WordCount -yD taskmanager.memory.managed.fra

flink

jar包

置顶原创 2022-06-23 16:01:35 517 阅读 1点赞 1收藏 1评论

查看HDFS文件统计数

hdfs fsck /tmp/logs/tools/logs/ -files -blocks -locations -racks

hdfs

置顶原创 2022-06-22 14:12:10 345 阅读

ELK部署

原理说明Elasticsearch 是一个实时的分布式的可扩展的使用REST接口的搜索引擎，允许进行全文、结构化搜索，它通常用于索引和搜索大量日志数据，也可用于搜索许多不同类型的文档。它基于Apache Lucene (TM)的开源搜索引擎，Lucene 非常复杂，你需要深入的了解检索相关知识来理解它是如何工作的。Elasticsearch 也是使用 Java 编写并使用 Lucene 来建立索引

elasticsearch

docker

数据

置顶原创精选 2022-06-18 09:50:05 666 阅读 1点赞

大数据技术之CM安装

第1章 Cloudera Manager1.1 cloudera manager的概念简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。1.2 cloudera manager的功能管理：对集群进行管理，如添加、删除节点等操作。

cloudera

hadoop

mysql

置顶原创精选 2022-06-17 21:46:07 275 阅读 1点赞

ClickHouse之DBA运维宝典

最近有位网友与我聊天，他是一名 DBA，问我在 ClickHouse 中有没有一些能够 “安家立命” 的运维 SQL 语句。我想对于这个问题很多朋友都会有兴趣，所以就在这里做一个简单的分享。在 ClickHouse 默认的 system 数据库下(databse)，拥有众多的系统表。我们对 ClickHouse 运行状态的各种信息，就主要来自于这些系统表。接下来就列举一些常用的运维 SQL 语句。

sed

sql

数据

置顶原创精选 2022-06-16 09:59:31 808 阅读 1点赞

CDH更改了主机名之后各个组件报错如下

主要原因是更改了主机名之后，zk中无法找到组件的配置信息了解决方案：在namenode的主机上执行以下命令hdfs zkfc -formatZK输入y敲回车确认重启各种组件之后问题解决

主机名

解决方案

配置信息

置顶原创 2022-06-15 14:55:16 420 阅读 1点赞

Kubernetes 标准化部署文档

审核人大数据运维组重要性中紧迫性中拟制人王昱翔提交日期2020年 12月28日一： kubernetes的使用1.1 kubernetes的概述与架构 1.1.1.kubernetes的概述：kubernetes，简称K8s，是用8代替8个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效（p

fish

docker

json

置顶原创精选 2022-06-14 16:32:40 1754 阅读 1点赞 Word文档导入

Clickhouse重复数据处理

1.重复数据产生原因正常我们使用MergeTree引擎创建表，虽然MergeTree拥有主键，但是它的主键没有唯一键的约束，这就意味着即便多行数据的主键相同，它们还是能够被正常写入。这里如果需要去重，可以使用 ReplacingMergeTree，它能够在合并分区时删除重复的数据，但是只能对同一分区的数据去重，且去重依据是order by排序键。2.使用ReplacingMergeTree引擎创建

主键

创建表

数据

置顶原创精选 2022-06-13 14:35:23 9407 阅读

ClickHouse 亿级数据性能测试

最近由于项目需求使用到了 ClickHouse 做分析数据库，于是用测试环境做了一个单表 6 亿数据量的性能测试，记录一下测试结果，有做超大数据量分析技术选型需求的朋友可以参考下。服务器信息CPU：Intel Xeon Gold 6240 @ 8x 2.594GHz内存：32G系统：CentOS 7.6Linux内核版本：3.10.0磁盘类型：机械硬盘文件系统：ext4Clickhouse信息部署

sed

数据

性能测试

置顶原创精选 2022-06-12 18:30:58 1644 阅读 1点赞 1收藏 1评论 Word文档导入

HBase Shell操作、HBase创建表、添加数据、查看表数据、操作列簇、删除表

1. HBase Shell操作连接集群hbase shell2. 创建表create 'user','base_info'3. 向表中添加数据put 'user', 'rowkey_10', 'base_info:username', '张三'put 'user', 'rowkey_10', 'base_info:birthday', '2014-07-10'put

数据

删除表

添加数据

置顶原创精选 2022-06-07 14:44:59 6084 阅读 1点赞 1收藏 1评论

欢迎

首页
1
2
3
4
5
6
7
8
共614条记录

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客