江南独孤客的博客_大数据篇,数据库篇,Linux原创(9)

按发布时间
按阅读量
时间轴

全部656篇
2025年34篇 09月3篇 08月8篇 07月2篇 06月3篇 05月10篇 04月6篇 03月2篇 2024年19篇 12月3篇 11月1篇 08月1篇 07月1篇 06月2篇 05月1篇 04月1篇 03月4篇 02月2篇 01月3篇 2023年50篇 12月3篇 11月6篇 10月3篇 09月2篇 08月4篇 07月5篇 06月1篇 04月7篇 03月4篇 02月10篇 01月5篇 2022年300篇 12月2篇 11月11篇 10月20篇 09月10篇 08月3篇 07月16篇 06月26篇 05月51篇 04月64篇 03月27篇 02月48篇 01月22篇 2021年253篇 12月37篇 11月18篇 10月31篇 09月66篇 08月53篇 07月21篇 06月25篇 05月2篇
推荐/精选
原创

全部原创转载翻译

dolphinscheduler调度中执行python报错的处理过程

写了一个简单的helloworld做测试发现，这个路径并不是我环境中的路径，执行结果如下解决思路：先查看env下的ds的配置环境如下：发现这个配置是原来的配置，不是我机器上的配置，原来默认python的配置是/opt/soft/python/bin/python，这个是原来ds环境自带的，后来我改成我的测试环境的配置是：重启work节点后问题解决解决问题如下图：

调度报错处理

置顶原创推荐 2021-09-09 18:53:46 7773 阅读 1点赞

大数据中常见的数据倾斜解决的办法

第一种方案：对数据从源端进行聚合操作第二种方案：对倾斜的key进行过滤第三种方案：增加shuffle的并行度第四种方案：使用随机的key进行双重的group聚合第五种方案：将reduce join替换为map join 第六种方案：使用随机的key进行两次join操作第七种方案：使用随机数以及扩容表进行join操作

hive

数据倾斜

置顶原创 2021-09-08 10:59:31 949 阅读

使用datart连接hive报org.apache.thrift.transport.TTransport

报错Caused by: java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport2022-02-28 18:55:08.017 ERROR datart.server.config.WebExceptionHandler : Handler dispatch failed; nested exception

java

apache

hive

置顶原创精选 2022-02-28 19:27:50 5575 阅读 1点赞 2评论

解决mysql: command not found

[root@dbos-bigdata-mysql bin]# mysql -uroot-bash: mysql: command not found解决方案：ln -s /opt/mysql/bin/mysql /usr/bin

mysql

bash

解决方案

置顶原创 2022-02-22 17:23:28 974 阅读

hive on spark在后台插入数据到hudi表报错的处理

报错的内容如下：大至意思是找不到hive的一个parquet的类解决方案：查看了一下后台访问加载的时候，spark加载不到hive的hive-exec-2.1.1-cdh6.3.0-core.jar和hive-exec-2.1.1-cdh6.3.0.jar这两个jar包，因为只放了hudi的jar包解决方案：cd /opt/cloudera/parcels/CDH-6.3.0-1.cdh6.3.0

jar

hive

置顶原创精选 2021-12-30 20:39:42 1326 阅读

Flink 高效sink写入OSS

内容框架：背景介绍功能介绍如何配置如何使用背景介绍Apache Flink 简介Apache Flink 是新一代大数据计算引擎的代表，以分布式流计算为核心，同时支持批处理。特点：低延时：Flink 流式计算可以做到亚秒甚至毫秒级延时，相比之下 Spark 流计算很难达到秒级高吞吐：Flink 以分布式快照算法实现容错，对吞吐量的影响很小高容错：基于分布式快照算法，Flink 实现了低代价、高效的

flink

java

github

jar

上传

置顶原创精选 2021-11-09 17:23:41 3308 阅读

hive on spark参数调整

前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来说明。Driver参数spark.driver.cores该参数表示每个Executor可

spark

hive

hdfs

数据

单节点

置顶原创精选 2021-11-01 17:56:17 1703 阅读

cdh集成阿里云oss报错处理

ErrorMsg: [RequestId]: 61713C8701FFEC3337A1C45C [HostId]: oss-cn-shenzhen-internal.aliyuncs.com [ErrorMessage]: [E1010]HTTP/1.1 400 Bad Request: <?xml version="1.0" encoding="UTF-8"?><Error&g

oss

spark

置顶原创 2021-10-22 01:16:02 1648 阅读 16点赞 1收藏 4评论

hadoop的日常操作

一、清理空间步骤1.删除日志和回收站hdfs dfs -rm -r -skipTrash /user/*/.Trash/*hdfs dfs -rm -r -skipTrash /var/log/hadoop-yarn/apps/tools/logs/*hdfs dfs -rm -r -skipTrash /group/user/*/meta/hive-exec/*/*2.减少大表副本数a、查找大表

hadoop

置顶原创精选 2021-10-08 09:40:33 1346 阅读 7点赞 1收藏 3评论

hue创建hive表的时候显示注释乱码

问题环境软件版本CDH 6.3.0hive 2.1.1-cdh6.3.0问题原因其实hive的元数据都是存储在数据库里面，目前支持mysql,oracle,Postgres和MS SQL Server。如果我们建表发现乱码，很显然就可以归类到数据库表乱码问题。本例关联的数据库是mysql。表名如下：需要修改mysql的hive的的字符改成utf-8解决方案：在mysql对应的hiv

hive

乱码

置顶原创精选 2021-09-23 16:57:33 3891 阅读

centos6.6静默部署oracle11GR2

Centos 6.6静默安装Oracle的教程一、配置Centos 6.6 1、安装数据库需要的软件包 yum -y install binutils compat-libstdc++ elfutils-libelf elfutils-libelf-devel glibc glibc-common glibc-devel glibc-headers gcc gcc-c++ libaio liba

oracle静默

置顶原创推荐 2021-08-27 07:37:52 1231 阅读 2点赞 1收藏 2评论

mysql5.7.23主从安装部署，并开启GTID

[client] port=3306 socket=/data/mysql/data/mysql.sock [mysqldump] max_allowed_packet=1G default_character_set=utf8mb4 [mysql] no-auto-rehash default_character_set=utf8mb4 prompt=[\\u@\\h][\\d]>\\

5.7.23

置顶原创推荐 2021-08-26 12:09:17 2012 阅读 1点赞 1收藏

Atlas2.1.0集成CDH6.3.0部署

Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas大数据表依赖问题不好解决，元数据管理需要自

atlas

置顶原创推荐 2021-08-21 15:46:53 10000+阅读 3点赞 3收藏 8评论

如何把本地的hdfs数据转存到oss

--如何把分区[20210802]从本地磁盘转移到oss上存储（即：做到部分分区在本地磁盘存储，部分分区在oss存储） 1.通过命令复制过去hadoop distcp hdfs://bigdata/user/hive/warehouse/test.db/dim_sony_dev_list_oss2/pt=20210802 oss://dbbigdata/hangwenping/dim_sony_d

分区转移

置顶原创 2021-08-05 18:40:19 593 阅读

任务在yarn跑成功了，但是dolphinscheduler调度上显示失败的处理过程

yarn任务上面显示任务跑成功。 dolphinscheduler上显示通过服务器查看后台的work日志，有报错报错的内容是因为连接RM主机超时。查看common.properties的yarn的配置，是rm配置的主机配置错了，重新配置完后，重启work节点，重跑任务，问题解决。重启命令进入以下路径： [root@dbos-bigdata-test003 dolphinsch

问题处理

置顶原创 2021-08-05 12:58:15 2084 阅读

haproxy高可用的配置

#---------------------------------------------------------------------# Example configuration for a possible web application. See the# full configuration options online.## http://haproxy.1wt.eu/dow

haproxy

置顶原创 2021-08-03 17:08:11 279 阅读

Haproxy方式实现的Impala负载均衡在Hue中配置Impala服务和impala shell

Haproxy方式实现的Impala负载均衡在Hue中配置Impala服务的负载均衡。内容概述 1.测试环境描述 2.Hue配置Impala负载均衡 3.测试Impala负载均衡 4.总结测试环境 1.CM和CDH版本为5.13.1 2.Haproxy版本为1.5.18 前置条件 1.已配置好Haproxy实现的Impala负载均衡 2.环境描述在CDH集

cdh

置顶原创 2021-08-03 16:52:10 1607 阅读

CDH6.3.0上配置各种对象存储

cm-hdfs: ufile: 还需添加jar包 S3:是自带jar包 OSS: CDH6不需要下载包, CDH5需要 core-site.xml 的群集范围高级配置代码段（安全阀） fs.oss.endpoint oss-eu-west-1.aliyuncs.com #oss的外网地址fs.oss.accessKeyId fs.

cdh

置顶原创推荐 2021-07-27 17:54:03 2566 阅读 1评论

阿里云大数据服务器安装代理nginx端口转发

1.下载yum源 yum-config-manager --add-repo https://openresty.org/package/centos/openresty.repo 2.安装openresty服务 yum -y install openresty openresty-resty 3.添加nginx服务 vim /usr/lib/systemd/system/openrest

nginx

置顶原创 2021-07-24 13:04:30 767 阅读

记录一次hadoop2.6不能使用disk.balancer均衡单节点两块磁盘数据的问题脚本

脚本如下： #!/bin/bashtop=10srcDir='/data/dfs/dn/current/BP-923028163-10.80.233.0-1621333148862/current/finalized'destDir='/data1/dfs/dn/current/BP-923028163-10.80.233.0-1621333148863/current/finalized'#进

disk.balancer

置顶原创 2021-07-15 09:30:34 491 阅读

impala的session无法释放的自动清理脚本

#!/usr/bin/env python# -*- coding: utf8 -*-import requestsfrom bs4 import BeautifulSoup# 配置ip地址，格式为ips = ["ip", "ip", "ip"]for ip in ips: url = 'http://' + ip + ':25000/sessions' try: pri

impala

置顶原创 2021-06-01 14:01:25 1532 阅读

如何给Hadoop集群划分角色

规划

cdh

置顶原创 2021-06-01 13:37:10 1870 阅读

CDH的组件java调优建议值

hadoop组件部件内存hdfsJournalNodenamenode"-XX:+UseParNewGC -Xmx4096m -Xms4096m"datanodeJava Heap：8ghivehiveserver2100连接数Java Heap：30GHive Metastore100连接数Java Heap：30Gbeeline cliJava Heap：2ghive on sparkhive

CDH

置顶原创精选 2021-06-01 13:31:42 997 阅读

解决CentOS删除文件后但空间没有释放

一、问题描述：zabbix监控报警，磁盘空间不足登陆服务器上查看发现使用率不足20%，但清理完垃圾日志以后磁盘空间还是没有释放以下是处理未释放空间的步骤二、操作步骤1、查看磁盘空间[root@Test ~]# df -THFilesystem Type Size Used Avail Use% Mounted on/dev/vda1 ext4 212G

空间无法释放

置顶原创 2021-06-01 13:26:15 4773 阅读

记录一次事故处理50%kudu表无法进行正常访问

记录一次事故处理50%kudu表无法进行正常访问测试环境kudu集群事故，影响：测试效果，测试进度，生产发布延迟，需警惕，特此写出过程操作需谨慎！操作需谨慎！操作需谨慎！任务环境都要以生产环境而对待！事故原因：昨天于上午10点，业务说kudu表无法使用后，影响测试，无法正常发布。去scm平台发现kudu_tablet挂了5台运维查看信息日志后，做近一步处理1.重启kudu—tablet发现无法启动

大数据、kudu、hdfs、hive

置顶原创 2021-05-31 10:25:12 901 阅读

JupyterHub 离线部署（适配 K8s v1.28.0）

三、JupyterHub 离线部署（适配 K8s v1.28.0）1. 下载适配版本的 Helm Chart 与离线镜像1.1 下载 JupyterHub Helm Chart v3.1.0（替换原 2.0.0）参考文档通过百度网盘分享 Chart 包，此处替换为 3.1.0 版本：bash# 方式1：离线包上传（推荐，复刻参考文档离线逻辑） # 联网环境下载：https://artifacthu

参考文档

docker

原创 1月前 161 阅读

Doris 核心技术解析：FE/BE 架构、数据分片、表模型优化与资源隔离

Doris 是一款 MPP 架构的 OLAP 引擎，核心目标是支持高并发、低延迟的数据分析查询，其架构设计、数据分片策略、表模型优化和资源隔离机制直接决定了查询性能与系统稳定性。以下从四个维度展开详细解析。一、Doris FE 与 BE 核心架构Doris 架构分为前端节点（FE）和后端节点（BE），两者各司其职且通过心跳机制协同工作，整体架构具备高可

字段

数据

元数据

原创 1月前 403 阅读

Flink 运维全指南：监控、问题排查、优化与实战

Flink 作为分布式流处理引擎，在实时数据处理领域扮演着核心角色。然而，其复杂的架构和动态特性给运维带来了巨大挑战。本文将系统性地介绍 Flink 的运维体系，深入剖析常见问题及其排查方法，并提供详细的解决方案和代码示例，帮助运维工程师和开发者构建稳定、高效的 Flink 集群。一、 Flink 运维基础：构建可观测性体系1. 核心监控指标与工具Flink 的可观测性是运维的基石，主要依赖以下组

Web

搜索

原创 2月前 150 阅读 1点赞 1收藏

Doris vs StarRocks vs ClickHouse：新一代MPP引擎的终极对决

随着大数据技术的飞速发展，企业对实时数据分析、高并发查询和复杂分析场景的需求日益增长。传统数据仓库在面对海量数据和高时效性要求时逐渐暴露出性能瓶颈。为此，基于MPP（Massively Parallel Processing，大规模并行处理）架构的新一代分析型数据库应运而生。其中，Apache Doris、StarRocks 和 ClickHouse 成为当前最受关注

向量化

高并发

Apache

原创 2月前 424 阅读

大数据里的老大难：如何优雅解决数据倾斜？

在大数据计算领域，最让人头疼的问题之一就是数据倾斜。它常常是导致任务跑得慢、集群资源被白白浪费、甚至直接失败的元凶。别看名字挺玄乎，其实本质并不复杂。1. 数据倾斜的本质原因一句话：数据分布不均导致计算资源不均。更具体点说：如果某些 Key 的数据量远远大于其他 Key，那就会导致部分计算节点的任务负担过重，结果就是——有的 Task 很快跑完，有的 Task 却累得要死要活，整个任务

数据倾斜

随机数

字段

原创 2月前 124 阅读

欢迎

首页
5
6
7
8
9
10
11
12
共614条记录

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客