武子康1998的博客_GPT,rust-lang 打怪升级,大模型ChatGLM3微调_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

大数据-191 Elasticsearch - ES 集群模式配置启动规划调优

大数据-191 Elasticsearch - ES 集群模式配置启动规划调优

调整 _source 字段，source字段用于存储原数的doc数据，对于部分不需要存储的数据，可以通过index excludes过滤，

大数据

elasticsearch

搜索引擎

elk

全文检索

原创 1天前 12 阅读

大数据-192 DataX - 异构数据源的同步工具核心模块 Reader Writer

大数据-192 DataX - 异构数据源的同步工具核心模块 Reader Writer

DataX是阿里巴巴集团内广泛使用的离线数据同步工具/平台，实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、H

大数据

分布式

hdfs

hadoop

hbase

原创 1天前 13 阅读

大数据-196 数据挖掘机器学习理论 - scikit-learn 算法库实现案例1 红酒案例 2 乳腺癌

大数据-196 数据挖掘机器学习理论 - scikit-learn 算法库实现案例1 红酒案例 2 乳腺癌

KNN 中的一个超参数，所谓“超参数”，就是需要人为输入，算法不能通过直接计算得出这个参数，KNN 中的 K 代表的是距离需要分

机器学习

大数据

数据挖掘

scikit-learn

算法

原创 1天前 0 阅读

大数据-193 Apache Tez - DAG 作业计算框架核心解释工作原理配置集成

大数据-193 Apache Tez - DAG 作业计算框架核心解释工作原理配置集成

Tez 是一个运行在 Hadoop 生态系统中的高效数据处理框架，旨在优化批处理和交互式查询。它是 Apache 基金会下的一个开源项目，作为

大数据

apache

hadoop

mapreduce

hdfs

原创 1天前 11 阅读

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

从上图我们看出，对于复杂的数据，低阶多项式往往是欠拟合的状态，而高阶多项式则过分捕捉噪声数据的分布规律，而噪声数据

大数据

数据挖掘

机器学习

人工智能

深度学习

原创 1天前 3 阅读

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

大数据-195 数据挖掘机器学习理论 - 监督学习算法 KNN 近邻代码实现 Python

当然只对比一个样本是不够的，误差会很大，他们就需要找到离其最近的 K 个样本，并将这些样本称为【近邻

大数据

数据挖掘

机器学习

python

人工智能

原创精选 1天前 136 阅读

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

大数据-197 数据挖掘机器学习理论 - scikit-learn 泛化能力交叉验证

在业务中，我们训练数据往往都是以往已经有的历史数据，但我们的测试数据却是新进入系统的数据，我们追求模型的效果

机器学习

大数据

数据挖掘

scikit-learn

人工智能

原创精选 1天前 128 阅读

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

最近邻点距离远近修正在对未知分类过程中，一点一票的规则是 KNN 模型优化的一个重要步骤，也就是说，对于原始分类

机器学习

大数据

数据挖掘

人工智能

scikit-learn

原创精选 1天前 142 阅读

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

左图表示了特征空间的一个划分，假定现在只有 W10 和 W20 两个决策点，特征空间被决策点沿轴划分，并且相继划分相互

数据挖掘

机器学习

大数据

人工智能

深度学习

原创精选 1天前 127 阅读

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

在每次分支的时候，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的节点。我们之

数据挖掘

机器学习

大数据

人工智能

决策树

原创精选 1天前 137 阅读

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某节点（数据

数据挖掘

机器学习

大数据

python

人工智能

原创 1天前 2 阅读

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分，当然也可以根据实际需求适当调整划分比例，但无论如何

大数据

机器学习

数据挖掘

scikit-learn

算法

原创 1天前 1 阅读

大数据-188 Elasticsearch - ELK 家族 Logstash Output 插件

大数据-188 Elasticsearch - ELK 家族 Logstash Output 插件

Filter 插件负责对传入的数据进行处理和转换，它位于 Logstash 管道的中间环节，接收来自输入 (Input) 的数据，进行解析

1024程序员节

大数据

elasticsearch

分布式

搜索引擎

原创精选 8天前 137 阅读

大数据-190 Elasticsearch - ELK 日志分析实战 - 配置启动 Filebeat & Logstash

大数据-190 Elasticsearch - ELK 日志分析实战 - 配置启动 Filebeat & Logstash

如果你在这里遇到了 runtime-cgo-pthread-create-failed-operation-not-permitted 的错误，那你可以尝试将 FileBeat 的版本进行提升，

大数据

elasticsearch

elk

搜索引擎

全文检索

原创精选 8天前 150 阅读

大数据-189 Elasticsearch - ELK 日志分析实战 - 环境配置启动 Nginx、ZK、Kafka、ES、Kibana

大数据-189 Elasticsearch - ELK 日志分析实战 - 环境配置启动 Nginx、ZK、Kafka、ES、Kibana

Kibana 是一个开源的数据可视化和探索工具，专门为 Elasticsearch 设计，用来帮助用户对存储在 Elasticsearch 中的数据

大数据

elasticsearch

elk

搜索引擎

全文检索

原创 8天前 18 阅读

大数据-186 Elasticsearch - ELK 家族 Logstash Input插件 JDBC & syslog

大数据-186 Elasticsearch - ELK 家族 Logstash Input插件 JDBC & syslog

Logstash 的 JDBC 和 Syslog 是两种不同的 Input 插件，它们分别用于从数据库和 syslog 日志中收集数据。在详细介绍之前，首先明确一下它们各系统日志）服务中收集日志数据。

大数据

elasticsearch

elk

搜索引擎

全文检索

原创 8天前 20 阅读

大数据-183 Elasticsearch - 原理剖析 - 并发冲突处理机制剖析、分布式数据一致性剖析

大数据-183 Elasticsearch - 原理剖析 - 并发冲突处理机制剖析、分布式数据一致性剖析

如果是多线程操作，就可能有多个线程并发的去执行上述的3步骤流程，假如此时有两个人都来读取商品数据

大数据

elasticsearch

分布式

搜索引擎

全文检索

原创 8天前 25 阅读

大数据-184 Elasticsearch - 原理剖析 - DocValues 机制原理压缩与禁用

大数据-184 Elasticsearch - 原理剖析 - DocValues 机制原理压缩与禁用

Doc Values 是 Elasticsearch 中的重要功能，旨在提高排序、聚合和过滤的效率。通过列式存储，它允许 Elasticsearch 快速访问相关的字段值，而无需加载整个文档。正确地使用 Doc Values 可以显著提高查询性能，特别是在处理大规模数据时。

大数据

elasticsearch

搜索引擎

全文检索

架构

原创 8天前 12 阅读

大数据-181 Elasticsearch - 原理剖析索引文档存储段合并、存储文件详解

大数据-181 Elasticsearch - 原理剖析索引文档存储段合并、存储文件详解

Elasticsearch通过在后台进行段合并来解决这个问题，小的段合并到大的段，然后这些大的段被合并到更大的段，段合并的时候会将

大数据

elasticsearch

搜索引擎

全文检索

java

原创 8天前 17 阅读

大数据-182 Elasticsearch - 原理剖析数据结构-倒排索引、SkipList 跳表

大数据-182 Elasticsearch - 原理剖析数据结构-倒排索引、SkipList 跳表

倒排索引是全文检索的根基，理解了倒排索引之后才能算是入门了全文检索的领域，倒排索引的概念很简单，也很好理解。倒排索

大数据

elasticsearch

数据结构

搜索引擎

全文检索

原创 8天前 13 阅读

大数据-179 Elasticsearch - 原理剖析倒排索引与读写流程

大数据-179 Elasticsearch - 原理剖析倒排索引与读写流程

倒排索引是 Elasticsearch 实现高效全文搜索的基础。它通过构建基于词项的文档ID映射，使得搜索引擎可以快速找到包含某个词项的文档，并

大数据

elasticsearch

搜索引擎

全文检索

架构

原创 8天前 11 阅读

大数据-187 Elasticsearch - ELK 家族 Logstash Filter 插件使用详解

大数据-187 Elasticsearch - ELK 家族 Logstash Filter 插件使用详解

Filter 插件负责对传入的数据进行处理和转换，它位于 Logstash 管道的中间环节，接收来自输入 (Input) 的数据，进行解

1024程序员节

大数据

elasticsearch

数据结构

搜索引擎

原创 8天前 27 阅读

大数据-180 Elasticsearch - 原理剖析索引写入与近实时搜索

大数据-180 Elasticsearch - 原理剖析索引写入与近实时搜索

众所周知，Elasticsearch存储的基本单元是Shard，ES中的一个Index可能分为多个Shard，事实上每个Shard都是

大数据

elasticsearch

搜索引擎

java

全文检索

原创 8天前 26 阅读

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图

增量构建的Cube需要指定分割时间列，例如：将日期分区字段添加到维度列中：Data Model：New Join Condition，需要配置好

大数据

apache

kylin

java

flink

原创 8天前 19 阅读

大数据-157 Apache Kylin 背景历程特点场景架构组件详解

大数据-157 Apache Kylin 背景历程特点场景架构组件详解

在线查询离线构建在线查询模式主要处于上半部分，离线构建处于下半部分。数据源主要是Hadoop Hive，数据以关系表的形式输入，保存着待分析的数据，根据元数据的定义，构建引擎从数据源抽取数据，并构建CubeKylin可以使用MapReduce或Spark作为构建引擎，构建后的Cube保存在右侧的存储引擎中，一般选用HBase作为存储完成了离线

大数据

kylin

apache

java

flink

原创 8天前 32 阅读

大数据-158 Apache Kylin 安装配置详解集群模式启动

大数据-158 Apache Kylin 安装配置详解集群模式启动

需要注意：要求HBase的hbase.zookeeper.quorum值必须只能是 host1、host2这种，不允许host1:2181、host2:2181这种。你

大数据

apache

kylin

kafka

flink

原创 8天前 31 阅读

大数据-159 Apache Kylin 构建Cube 准备和测试数据

大数据-159 Apache Kylin 构建Cube 准备和测试数据

Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apache K

大数据

apache

kylin

架构

clickhouse

原创精选 8天前 156 阅读

大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录

大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录

Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apac

大数据

apache

kylin

架构

系统架构

原创精选 8天前 201 阅读

大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道与 Cube 优化

大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道与 Cube 优化

Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apache Kylin

大数据

apache

kylin

scala

java

原创精选 8天前 150 阅读

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果使用Kylin的JDBC与JDBC操作egment” 按钮。通常情况下，Ky

大数据

apache

kylin

kafka

flink

原创精选 8天前 154 阅读

首页
1
2
3
4
5
6
7
8
共311条记录