江南独孤客的博客_大数据篇,数据库篇,Linux原创

按发布时间
按阅读量
时间轴

全部656篇
2025年34篇 09月3篇 08月8篇 07月2篇 06月3篇 05月10篇 04月6篇 03月2篇 2024年19篇 12月3篇 11月1篇 08月1篇 07月1篇 06月2篇 05月1篇 04月1篇 03月4篇 02月2篇 01月3篇 2023年50篇 12月3篇 11月6篇 10月3篇 09月2篇 08月4篇 07月5篇 06月1篇 04月7篇 03月4篇 02月10篇 01月5篇 2022年300篇 12月2篇 11月11篇 10月20篇 09月10篇 08月3篇 07月16篇 06月26篇 05月51篇 04月64篇 03月27篇 02月48篇 01月22篇 2021年253篇 12月37篇 11月18篇 10月31篇 09月66篇 08月53篇 07月21篇 06月25篇 05月2篇
推荐/精选
原创

全部原创转载翻译

HDFS小文件数据采集到hive分析并治理

一、创建HDFS的fsimage_info_csv表CREATE TABLE `fsimage_info_csv`( `path` string, `replication` int, `modificationtime` string, `accesstime` string, `preferredblocksize` bigint, `blocks

HDFS

hdfs

CSV

置顶原创 1月前 132 阅读 1点赞

大数据超时30分钟以上的任务告警脚本

from impala.dbapi import connect import requests import json import os # 配置参数 IMPALA_HOST = os.getenv('IMPALA_HOST', '192.168.0.1') IMPALA_PORT = int(os.getenv('IMPALA_PORT', 21050)) IMPALA_USER = os

json

unix

置顶原创 2月前 39 阅读

大数据任务治理分析

1.写python脚本，把yarn任务上执行的记录导入到本地jsonimport requestsimport xmltodictimport jsonfrom datetime import datetime # 新增日期处理模块 # 获取当前日期并格式化为YYYYMMDDcurrent_date = datetime.no

unix

json

xml

置顶原创 3月前 146 阅读

impala报错的告警脚本

import requests import json from datetime import datetime, timedelta import pytz import time import re from requests.auth import HTTPBasicAuth # 配置项 CDH_API_URL = "http://192.168.0.10:7180/api/v33/cl

json

API

错误类型

置顶原创 3月前 92 阅读

创建计划调整Yarn资源队列

1.创建计划模式配置集：pool_night 重复:每天 night: 晚上10:00~上午10:00 配置集：pool_day重复:每天 day: 上午10:00~晚上10:00 2.修改资源池1.default已经失去了作用2.调整白天的时间段的选择pool_day(每个用户就会变成500C+1000G的资源池)查看是否生效：pool_day已经生效3.调整晚上的T+1调度时间选择pool_

时间段

置顶原创 4月前 106 阅读

CDH6.3.2 集成 tez0.9.1 修改执行引擎为Tez

1.安装maven1.1 下载mavenhttps://maven.apache.org/download.cgi1.2上传解压tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt1.3 配置 MVN_HOMR[root@cluster2-slave2 ~]# vim /etc/profileexport MVN_HOME=/data/module/ap

maven

apache

xml

置顶原创 4月前 140 阅读

大数据lDAP自动修改密码

#!/bin/bash # OpenLDAP Password Reset Utility # Usage: # 管理员模式: ./ldap-pw-reset.sh -a <admin_dn> -u <user_dn> [-s <ldap_server>] # 用户模式: ./ldap-pw-reset.sh -u <user_dn> [-

修改密码

密码修改

服务器

置顶原创 4月前 112 阅读

Impala因为hive建表刷新元数据失败监控告警后修复

1.添加服务cat /etc/systemd/system/catalogd-monitor.service [Unit] Description=CDH Catalogd Log Monitor [Service] ExecStart=/opt/scripts/catalogd_monitor.sh Restart=always RestartSec=5s [Install] WantedB

元数据

json

vim

置顶原创 5月前 206 阅读

CDH6.3.2 升级 Spark3.3.0 版本

背景由于 CDH6.3.2 以上，已不开源。常用组件只能自编译升级，比如 Spark 。看网上的资料，有人说 Spark3 的 SQL 运行性能比 Spark2 可提升 20%，本人未验证，但是 Spark3 的 AE 功能的确很香，能自适应解决 Spark SQL 的数据倾斜。下载软件软件版本：jdk-1.8、maven-3.8.4、scala-2.12.15 、spark-3.3.0说明：ma

spark

cloudera

hadoop

置顶原创精选 5月前 422 阅读

HDFS RPC延迟的解决办法

解决办法： 1.根据审计日志查出来的ip，通知相应的同学，停止对那个超大目录的count操作，用其他合理的方式代替 2.其它需要优化的 NameNode 配置（修改完成后，需要重启 NameNode 生效）： a. 8021 端口的 handler 个数（dfs.namenode.servic

重启

置顶原创 5月前 121 阅读

CDH6.1.1 impala加载hive的GET_JSON_OBJECT函数

GET_JSON_OBJECT，impala在CDH 6.1.1版本中有bug，低版本的需要自己引用hive的jar包，并新建函数。1.找到function所在的hive包,找到hive-exec-1.1.0-cdh5.14.2.jar2.上传hive-exec-1.1.0-cdh5.14.2.jar到HDFShdfs dfs -mkdir /udf #新建hdfs的UDF路径

hive

hdfs

jar

置顶原创 5月前 74 阅读

Yarn LevelDb文件过大导致重启NM失败问题分析

一、问题描述近期滚动重启Yarn NodeMagager时（hadoop版本3.0.0），发现滚动重启NM会卡很久，然后滚动重启失败（测试了好几台，基本都滚动重启失败）深入排查后，发现失败的原因如下：NM在启动的时候会去加载yarn-nm-recovery下面的leveldb数据库，主要是为了恢复机器上正在运行的container的相关信息。我们发现，重启失败的NM在启动的时候一直卡在读取leve

重启

db数据库

List

置顶原创 5月前 144 阅读

sftp数据拉到hdfs中表中

#!/usr/bin/env -S bash --posix # 文件名：sftp_to_hdfs.sh # 功能：多用户动态日期目录的SFTP数据拉取（自动删除.ok文件）并上传HDFS # 作者：王昱翔 # 版本：2.0（新增自动删除.ok文件功能） set +o posix # -------------------------------- 配置参数 ----------------

HDFS

hdfs

上传

置顶原创 5月前 94 阅读

vSphere新加机器后报vsan报错

新加的机器网卡的mtu默认是1500，原来的集群调整到了9000解决方案：新增加的机器从1500调整到9000，问题解决

解决方案

置顶原创 5月前 105 阅读

Impala查询超过10万行的报错LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32

LLVM hit fatal error: Cannot select: intrinsic %llvm.x86.sse42.crc32.32.32 解决方案：set disable_codegen=true;

解决方案

LLVM

置顶原创 5月前 220 阅读

Starrcoks的部署

Starrcoks的部署一、环境初始化1.1服务器配置1.2CPU指令集检查StarRocks 依靠 AVX2 指令集充分发挥其矢量化能力。因此，在生产环境中，强烈建议您将 StarRocks 部署于 x86 架构 CPU 的服务器上。您可以在终端中运行以下命令来检查 CPU 是否支持 AVX2 指令集：cat /proc/cpuinfo | grep avx21.3hosts添加主机名（每一台

java

mysql

置顶原创 5月前 290 阅读

Jpyterhub注册新版本的Python3.8.8

1.上传下载好的python3.8.8包2.部署个人环境python3.81.解压 [yuxiang3.wang@cdhjupter1 ~]$ tar -xvf Python-3.8.8.tgz [yuxiang3.wang@cdhjupter1 ~]$ mv Python-3.8.8 python3.8.8 [yuxiang3.wang@cdhjupter1 ~]$ mkdir -p pytho

python

Python

上传下载

置顶原创 5月前 108 阅读私藏项目实操分享

Starrcosk的优化

FE优化 fe.conf routine_load_task_consume_second = 60 max_routine_load_batch_size=6442450944 max_routine_load_task_num_per_be=24 BE优化 be.conf write_buffer_size=1073741824 base_compaction_check_interv

Nginx

高可用

nginx配置

置顶原创 6月前 41 阅读

Starrcks调整参数

核心参数调优参数名称原值/默认值建议值作用说明parallel_fragment_exec_instance_num18提升并行度（16核CPU建议设为8，每个核分配1个实例）pipeline_dop016流水线并行度（充分利用多核，提升CPU利用率）connector_io_tasks_per_scan_operator1632提高SSD的IO并行度（SSD高吞吐特性支持更高并发）io_task

并行度

默认值

高并发

置顶原创 6月前 187 阅读

hbase灾备集群数据量差异化告警

#!/bin/bash # 企业微信机器人Webhook地址 WEBHOOK_URL="https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=you_key" # 表名列表（支持多表检测） TABLES=("j:data1" "j:data2" "j:data3") # 时间范围计算优化（CST时区） YESTERDAY_START_CST

错误处理

apache

hadoop

置顶原创 6月前 63 阅读

Clickhouse迁移分区数据

一、清理当前集群的分区数据1. 验证分区存在性通过系统表确认分区状态：SELECTpartition,active,sum(rows) AS total_rowsFROM system.partsWHEREdatabase = 'clklog'AND table = 'flow_trend_bydate'AND partition = '2025-04-01'GROU

数据

目标集

删除操作

置顶原创 6月前 128 阅读

CDH6.3.2 HUE编译升级到CDH6.3.3HUE解决数据显示不全的BUG问题

centos7.9 [python2.7.5] #创建hue目录 mkdir hue cd hue/ #安装yum包 yum install -y python-devel sudo yum install -y git gcc make openssl-devel bzip2-devel libffi-devel yum install -y maven yum install -y mys

xml

python

mysql

置顶原创 6月前 232 阅读 1评论

CDH巡检脚本

#!/bin/bash # 设置Hadoop环境 unset YARN_OPTS export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true" HADOOP_USER="hdfs" HADOOP_HOME="/opt/cloudera/parcels/CDH/lib/" OUTPUT_FILE="/var/lib/hadoop-hdfs/back/ou

hdfs

hadoop

版本信息

置顶原创 7月前 78 阅读

CDH集群之YARN性能调优

本文主要讨论CDH集群的YARN调优配置，关于YARN的调优配置，主要关注CPU和内存的调优，其中CPU是指物理CPU个数乘以CPU核数，即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的，task在container内部执行。集群配置集群的配置主要包括三步，第一是先规划集群的工作主机以及每台主机的配置，第二是规划每台主机的安装的组件及其资源分配，第三是

mapreduce

配置参数

Memory

置顶原创 10月前 291 阅读

Centos修改python指向python3导致yum不可用

File "/bin/yum", line 30 except KeyboardInterrupt, e: ^ Syn解决方案：一、修改报错文件/usr/bin/yum，将头行"#!/usr/bin/python" 改为 “#!/usr/bin/python2” 二、修改报错文件/usr/libexec/urlgrabber-ext-down，将头行"#!/usr/bin/python" 改为 “

python

解决方案

置顶原创 10月前 67 阅读 yyds干货盘点

Hue报Could not validate if AnonymousUser is a superuser assuming False.

11:40:42 中午 ERROR backend Could not validate if AnonymousUser is a superuser assuming False. Traceback (most recent call last): File "/opt/cloudera/parcels/CDH-6.1.1-1.cdh6.1.1.p0.875250/lib/hue/de

cloudera

python

django

置顶原创 10月前 151 阅读

HPC高性能计算收藏

-- Slurm资源管理与作业调度系统安装配置 https://hmli.ustc.edu.cn/doc/linux/slurm-install/slurm-install.html#ubuntu-deb -- Slurm资源管理与作业调度系统HA高可用配置 https://hmli.ustc.edu.cn/doc/linux/slurm-ha/ -- Slurm作业管理系统使用 https://

作业调度

linux

资源管理

置顶原创 2024-08-08 10:44:24 193 阅读

NebulaGraph 3.6的迁移

环境原IP目标IP迁移的服务备注192.168.11.20192.168.11.23nebula-metadnebula-graphdnebula-storaged服务部署目录/opt/nebulagraph数据存储目录/data/nebula192.168.11.21192.168.11.24192.168.11.22192.168.11.25迁移前的准备操作系统和环境要保持一致系统存储的目录要

数据存储

linux

置顶原创精选 2024-07-21 07:55:06 412 阅读

flink1.18.1配置flink on yarn模式

1.下载wget https://dlcdn.apache.org/flink/flink-1.18.1/flink-1.18.1-bin-scala_2.12.tgz --no-check-certificate2.解压 tar -xvf flink-1.18.1-bin-scala_2.12.tgz3.创建提交用户useradd flink4.授权chonwn -R flink:flink

flink

ide

sed

置顶原创 2024-06-19 15:07:43 1747 阅读 1评论

CDH下载

CDH的下载地址wget http://139.196.32.140:8080/cdh6/CDH6.3.2.tar.gz

下载地址

置顶原创 2024-06-18 11:39:47 84 阅读 1评论

欢迎

首页
1
2
3
4
5
6
7
8
共614条记录

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客