1024点线面的博客_Linux,ElasticSearch,Spark原创

ES 8.x的全程编译实践与问题解决

摘要本文整理和记录ES 8.x的编译过程问题与解决方案，主要解决gradle下载问题以及国内源、Hadoop环境设置与hadoop附件缺失、编译时jdk版本指定、esql的compute超时报错、编译时警告导致编译失败等问题！本地目录结构. ├── build.sh ├── hadoop_deps ├── jdk21 ├── plat_json ├── snap_fix ├── source │

elasticsearch

maven

java

原创精选 5月前 162 阅读

基于git推送的ES检索pdf内容优化思路与代码实现

写在前面在之前的内容中我们已经介绍了创建gitbucket的webHook，使得仓库有更新时自动推送到我们定义的接口；然后Java读取仓库的文件转码写入ES库，这些核心流程已经实现。1. 实现ES检索pdf等文件内容的插件2. 基于GitBucket的Hook构建ES检索PDF等文档全栈方案3. Java实现读取转码写入ES在在我们的现有系统中，我们已经实现了自动化识别并记录文件类型的能力，无论是

java

git

elasticsearch

pdf

word

原创精选 5月前 142 阅读

基于GitBucket的Hook构建ES检索PDF等文档全栈方案

背景之前已简单使用ES及Kibana和在线转Base64工具实现了检索文档的demo，预期建设方案是使用触发器类型从公共的文档源拉取最新的文件，然后调用Java将文件转Base64后入ES建索引，再提供封装接口给前端做查询之用。由于全部内容过长，为了便于阅读，按照大的章节分为三部分，第一部分讲述基于WebHook的触发机制怎么搭建，包含全部实现细节！使用Git Hook获取文件变化我们内部使用了G

json

spring

Java

原创精选 5月前 182 阅读

批次大小对ES写入性能影响初探

问题背景ES使用bulk写入时每批次的大小对性能有什么影响？设置每批次多大为好？一般来说，在Elasticsearch中，使用bulk API进行批量写入时，每批次的大小对性能有着显著的影响。具体来说，当批量请求的大小增加时，写入性能通常会提高，因为减少了网络往返时间和磁盘I/O次数。然而，如果批量请求过大，会导致节点上的内存压力增大，进而影响其他请求的性能，甚至可能导致节点崩溃。实测方案与结果我

数据

开发人员

Elastic

原创 5月前 64 阅读

python3.x的在线与离线安装纯净版

由于计划搭建一套使用python自动分析日志的流程，发现我们的测试环境CentOS 7仍然没有安装python3，无法使用这些新的库。Python 3在设计上着重提升了语言的一致性和易用性，它引入了许多关键改进，此外，Python 3环境拥有丰富的标准库与第三方库生态，主要就是现在很多AI方面的库py2已经无法使用了。python3环境conda搭建miniconda的环境在线搭建：wget ht

python

Python

bc

原创 5月前 39 阅读

性能分析排查思路之机器（2）

前言本文是性能问题分析排查思路的展开内容之一，第2篇，主要分为日志1期，机器4期、环境2期共7篇系列文章，本期是第二篇，讲机器（硬件）的存储方面的分析方法和经验、最佳实践。机器上主要有磁盘（存储）、网络、内存和CPU四大硬件模块。其中磁盘方面是故障率、瓶颈率最高的一个部件。对于Linux环境性能问题的排查，我们首先需要看的就是磁盘的情况。了解构成分为RAID和非RAID的情况。RAID之后的磁盘阵

文件系统

数据

性能分析

磁盘

原创精选 6月前 218 阅读

性能分析排查思路之日志（1）

本文是性能问题分析排查思路的展开内容之一，主要分为日志1期，机器4期、环境2期共7篇系列文章，本期是第一篇，讲日志的分析方法和经验。一般分析步骤大数据领域，日志的范畴很广泛，主要思路如下：收集相关日志：任务日志：对于运行在YARN等分布式计算框架上的任务，首先要获取任务执行过程中的标准输出（stdout）和标准错误（stderr）日志，这些日志可能包含了任务启动、运行、失败的具体信息，包括错误栈、

HDFS

内存溢出

Hive

日志分析

原创 6月前 38 阅读

深度测试：指定DoC ID对ES写入性能的影响

在[[使用python批量写入ES索引数据]]中已经介绍了如何批量写入ES数据。基于该流程实际测试一下指定文档ID对ES性能的影响有多大。据ES官方的性能调优指南：在为具有显式 id 的文档编制索引时，Elasticsearch 需要检查同一分区内是否已经存在具有相同 id 的文档，这是一项成本很高的操作，而且随着索引的增加，成本会越来越高。具体有多大影响呢？一句话版指定ID比不指定ID的性能下降

python

性能优化

elasticsearch

原创精选 6月前 212 阅读 1点赞

使用python批量写入ES索引数据（附代码）

背景由于使用官方性能压测工具esrally并不能随心所欲地控制创建索引的内容、索引的结构和数据量，无法创建指定的测试数据集，或者直接投入生产使用。使用java或者spark则需编译使用，修改麻烦，人生苦短，我用python。本文介绍使用python脚本批量写ES数据，需要使用pip提前下载安装es依赖库。在线安装pip这主要是为了安装python依赖。wget [https://bootstrap

python

数据

elasticsearch

原创精选 6月前 230 阅读

一图梳理性能问题分析排查思路（大数据版）

性能问题分析地毯式排查方法对于平台提供方来说性能问题协助排查的起点是日志，终点是业务。而研发人员理应是性能问题的第一负责人，多数性能问题与业务的使用方式相关。性能相关问题及疑难杂症的摸排定位，技术人员不怕bug，怕的是有问题现象却找不到原因。性能问题往往就是没有变更、没有警告、没有报错的三无问题，本文即是一个性能问题的检查单式的分析思路和常用工具方法，用于发现性能问题背后潜伏的罪魁祸首，大纲如图所

性能瓶颈

慢查询

系统日志

原创 6月前 32 阅读 1点赞

【总结】扩大ES索引分片数的3个方案

在 Elasticsearch（ES）中，随着数据量的增长，对索引进行扩展或调整分片设置可以通过以下三种方案实现：写在前面的话Elasticsearch 的设计原则之一是不可变性：一旦数据被写入，就不能修改其结构。在实际业务开始前应充分评估当前集群的状态和未来的增长趋势，但是由于没有做好容量规划与评估，没有设计灵活的代码，或者不熟悉硬件的性能等原因，随着单个索引数据越来越多，初始设置的分片较少已经

数据

Elastic

原始数据

原创 6月前 95 阅读

避坑！一次ES索引分片扩增实践复盘

背景上次谈到生产环境中最为便捷的ES分片扩增方案——Split，它适用于仅因为初始分片数设置过少导致的一些性能、磁盘存储问题。索引拆分（split）操作虽然简单快捷，但是基于少量示例数据的测试还是无法还原事情的全貌。使用自带的demo数据，仅仅几兆的大小完全看不出什么问题来，因此索引分片的拆分几乎是在瞬间就完成了，来不及观察。今天分享的是对于大索引拆分需要注意的两个注意事项。同时，通过实践证明Sp

数据

生产环境

Elastic

原创 6月前 30 阅读 1点赞

ES索引分片扩增方案与操作（一）

ES的索引扩增操作指南导言众所周知，在Elasticsearch中，一旦索引的分片数（shard count）在创建索引时设定，就不能直接修改。这是因为ES的设计原则之一是不可变性：一旦数据被写入，就不能修改其结构。但需求总是真切存在的，要想增加更多的存储空间或提高性能，有以下三种通融方案：扩容、重索引、拆分片。今天介绍最为快捷的方案三：索引分片扩增。分片扩增手把手教学需要注意的是这三种方案只有集

数据

设计原则

索引

原创 6月前 86 阅读 1点赞

GCeasy：让天下没有难懂的gc日志

GC日志在线分析神器导言 Java虚拟机（JVM）的垃圾回收（GC）不仅关系到内存资源的有效管理，更对业务性能产生着深远影响。 GC日志作为诊断JVM性能问题的关键信息源，常详尽且复杂，涉及大量的专业术语和技术细节，如堆内存划分、GC算法选择、停顿时间等，让许多开发者望而却步。今天介绍的神器，让人人都可以成为GC分析的专家。

CMS

JVM

Time

原创精选 6月前 162 阅读 1点赞

ES集群规模规划

在搭建正式的生产集群之前，充分做好硬件和服务器配置以及集群规划是重中之重，磨刀不误砍柴工。硬件配置推荐内存ES排序以及聚合都是高度需求内存的。单机（单节点）64GB是很理想的配置，32GB或16GB也很常见。不推荐低于8GB，性价比较低，适得其反（很多的小机器也不划算）。JVM 堆内存：存储关于集群、索引、分片、段和 Fielddata 的元数据。该项较为理想的设置是可用 RAM 的 50%。所以

缓存

原始数据

elastic

原创 2023-04-03 10:09:15 384 阅读

关于ES分片设置的6个建议

ElasticSearch并没有对分片数量和大小做硬性限制，但分片的设置对ES后期的顺畅使用又至关重要，那么最常见的2个问题：纯干货“我应该设置多少个分片？答：最大20个分片/GB内存”“我应该设置多大的分片？答：小于50GB，但最好大于1GB。”分片是 Elasticsearch 在集群内分发数据的单位。Elasticsearch 在对数据进行再平衡（例如发生故障后）时移动分片的速度取决于分片的

Elastic

堆内存

分片

原创 2023-03-31 20:31:10 367 阅读

ES数据膨胀研究

构造原始数据先写一个GenLocalLog程序（随意，主要是个for循环），生成格式为“用户id，访问时间，IP地址，响应码，访问接口”这样5字段的测试日志，共计100000条记录：如图：青色、橙色、黄色、绿色和紫色分别是对应的示例数据，模拟实际情况。数据示例如下，采用空格分隔，当然也可以生成时直接用逗号分隔，变成csv文件。142e307b-bf31-4c20-a979-87c153350e64

数据

ES

数据膨胀

存储评估

原创 2023-03-31 20:24:25 151 阅读

CentOS7.4的RDMA网卡驱动安装

背景在使用RDMA网卡搭建集群时，发现有的节点能够识别RDMA网卡，有的无法识别，差别在于内核版本不同，CentOS 8的机器可以直接使用，而CentOS 7的系统因为没有默认的驱动导致网络连接异常。官网驱动下载安装访问开发者支持网站https://developer.nvidia.com/networking/infiniband-software下翻到快速链接，点击第一个进去：找到对应的系统架

CentOS

RDMA

智能网卡

驱动安装

原创 2023-03-31 17:06:40 682 阅读 1收藏

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

Kelvin暮小七的博客

ES 8.x的全程编译实践与问题解决

基于git推送的ES检索pdf内容优化思路与代码实现

基于GitBucket的Hook构建ES检索PDF等文档全栈方案

批次大小对ES写入性能影响初探

python3.x的在线与离线安装纯净版

性能分析排查思路之机器（2）

性能分析排查思路之日志（1）

深度测试：指定DoC ID对ES写入性能的影响

使用python批量写入ES索引数据（附代码）

一图梳理性能问题分析排查思路（大数据版）

【总结】扩大ES索引分片数的3个方案

避坑！一次ES索引分片扩增实践复盘

ES索引分片扩增方案与操作（一）

GCeasy：让天下没有难懂的gc日志

ES集群规模规划

关于ES分片设置的6个建议

ES数据膨胀研究

CentOS7.4的RDMA网卡驱动安装