八月初夏的博客_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

大模型生成优化：混合代理架构（MOA）

大模型生成优化：混合代理架构（MOA）

论文笔记题目Mixture-of-Agents Enhances Large Language Model Capabilities作者Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou论文摘要近年来，大型语言模型（LLMs）在自然语言理解和生成任务方面取得了显著进展。然而，单个模型在规模和训练数据上存在固有的限制，进一步扩展这

自然语言处理

MOA

MOE

AIGC

人工智能

原创精选 1月前 155 阅读 AIGC二三事

AIGC底层技术之模型量化全解

AIGC底层技术之模型量化全解

1. 几乎所有量化方式在8bit 量化无损失 2. GPTQ 和 AWQ 4bit量化对8B模型来说有1-2%的性能损失，对70B模型只有0.4%性能损失。 3. 参数越大的模型，低bit量化损失越低。 4. 综合来说，如果追求无任何性能损失，8B模型用8bit量化，70B模型用4bit量化；如果能接受2-3%损失，8B模型用4bit量化，70B模型用3bit量化。

llama

GPTQ

AWQ

量化方式

AIGC

原创精选 1月前 230 阅读 AIGC二三事

大模型推理优化技术概述

大模型推理优化技术概述

KVcache一句话总结：KV cache其实就是通过空间换取时间的方式，通过缓存Attention中的K和V来实现推理优化。注意力机制公式其中：Q 表示查询（Query）矩阵K 表示键（Key）矩阵V 表示值（Value）矩阵dk 是键向量的维度，用于缩放因子，防止内积后的数值过大导致梯度消失问题softmax函数是用来归一化权重的计算过程矩阵乘法（QKT）：首先，计算查询矩阵Q和键矩阵K的转置

kvcache

PageAttention

AIGC

vllm

MGA注意力机制

原创精选 1月前 219 阅读

大模型上下文实验之大海捞针和数星星

大模型上下文实验之大海捞针和数星星

大海捞针测试通过在长文本中随机插入关键信息，形成大型语言模型（LLM）的Prompt。该测试旨在检测大型模型能否从长文本中提取出这些关键信息，从而评估模型处理长文本信息提取的能力数星星测试通过两个任务评估LLMs的长上下文能力：多证据获取和多证据推理。实验使用了多种长文本数据，中文版本使用《红楼梦》，英文版本使用Paul Graham的文章作为长文本。

语言模型

大海捞针

数星星

ChatGPT

Claude

原创精选 1月前 213 阅读