爱串门的小马驹的博客_分布式大模型训练_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# 分布式大模型训练

模型训练时间预测，计算量估计 Scaling Laws for Neural Language Models

一、模型计算量C ≈ 6N*D其中C表示训练语言模型所需的总计算量，N表示模型参数量，D表示用于训练的语料总量，6表示每训练一个token所需的浮点计算量约为6N，其中前向计算2N，反向计算4N。注意：这里的6是针对Transformers，如果其它模型结构，还请重新确定每个参数的平均计算量。开了激活点检查activation checkpoint，这个系数是8。激活检查activation ch

语言模型

视频教程

原创 1月前 38 阅读

万卡训练集群：挑战、设计原则、考虑因素MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

万卡训练集群：挑战、设计原则、考虑因素MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

一、为什么要万卡训练集群：大语言模型贼牛逼这个就不强调了哈，机器翻译，人机会话表现出巨大潜力和应用价值。模型大小和训练数据大小决定了模型能力，为实现最先进的模型，人们已经致力于万亿tokens训练具有万亿参数的大型模型。这就需要建立具有数万个GPU的大规模人工智能集群来训练LLM(大语言模型)。二、万卡训练集群的挑战：1、实现大规模高训练效率；(能不能把万卡的算力有效利用起来)2、实现大规模高稳定

数据加载

数据

视频教程

原创 1月前 81 阅读 1点赞 1收藏

数据并行模型训练视频教程DP DDP zero1，zero2，zero3, ZeRO++

视频教程: 一、分布式数据并行，模型并行的基本概念。DP DDP分布式数据并行： 1.1 数据并行模型并行 DP DDP Zero分布式并行_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1qu4m1F71p/?spm_id_from=333.788&vd_source=0ce5c2fe19670ac8e8f3860555d273e3二、Z

模型训练

数据并行

大模型

原创 2月前 33 阅读