程序员不惑的博客_AIGC,前端,后端_51CTO博客

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

老婆问我：“什么是大模型的“超参数”？”

最近，老婆刷到一条新闻：“科学家调整超参数让大模型智商飙升！”她一脸懵地问我：超参数是超级英雄的密码吗？难道AI模型还要输作弊码？我微微一笑，表现的机会又来了：超参数不是作弊器，而是AI的“操控面板”——就像汽车的方向盘、油门和刹车，它们决定了模型学习的节奏和方向。比如让AI学写诗时，超参数就是控制它“先背100首唐诗，还是先研究现代散文”的训练策略。她更疑惑了：参数不都是自动学的吗？为啥还要手动

数据

正则化

自动驾驶

原创 6月前 67 阅读

老婆问我：“什么是大模型的“上下文”？”

最近，老婆又又又刷到一条新闻（PS：也不知道为什么总是看新闻）：“大模型靠上下文理解能力碾压传统 AI！”她一脸懵地问我：上下文不是写作文要首尾呼应吗？难道 AI 还要学语文课？我乐了：上下文不是作文技巧，而是 AI 的“记忆项链”——把零散的信息串成连贯的逻辑。就像你和朋友聊天时，绝不会突然蹦出一句“给我一杯拿铁”，而是会说：“刚才提到的那家咖啡馆，请推荐招牌饮品。”AI 有了上下文能力，才能听

推理模型

对话模型

Streaming

原创 6月前 74 阅读

老婆问我：“什么是大模型的“Transformer”？”

最近，老婆在手机上刷到一条新闻：“Transformer 架构彻底改变 AI，成就了 ChatGPT 这样的超级大脑！”她皱着眉问我：“Transformer ？变形金刚？” 我乐了：Transformer 确实是“变形”高手，但不是擎天柱，而是 AI 领域的一场革命。简单来说，它是一种神奇的“文本理解法”，让 AI 能像人一样读懂、分析、生成语言。如果说传统 AI 是小学语文老师背课文，Tran

光笔

权重

读文本

原创 6月前 67 阅读在51CTO的第一篇博文

老婆问我：“什么是大模型的“蒸馏”？”

最近，老婆刷到一条新闻：“科学家用大模型‘蒸馏’出小模型，效果堪比原版！”她一脸懵地问我：AI 模型还能像酿酒一样“蒸馏”？难道要架个锅炉煮代码？我乐了：蒸馏不是真用火烤，而是一种“知识搬运术”——把笨重的大模型（比如 1000 亿参数）的“智慧精华”，浓缩到一个轻巧的小模型（比如 1 亿参数）里。就像把一整本百科全书的知识，压缩成一张学霸的笔记，既便携又够用。她更疑惑了：直接用小模型不行吗？为啥

服务器

智能手表

离线

原创 6月前 90 阅读

老婆问我：“什么是大模型的 Prompt？”

最近，老婆问我：听说大模型要靠“Prompt”才能回答问题，这 Prompt 到底是啥？难道和喊“芝麻开门”一样，念对了咒语才有用？我：Prompt 确实有点像咒语，但更准确地说，它是人类和 AI 沟通的“指令说明书”。比如你问元宝：“写一首关于秋天的诗”，这句话本身就是 Prompt。模型会解析你的指令，理解你想要什么，再生成对应的内容。如果换成另一个 Prompt：“用冷笑话的风格解释量子物

区块链

Python

技术栈

原创 6月前 79 阅读在51CTO的第一篇博文

老婆问我：“大模型的参数到底是什么东西？”

最近DeepSeek很火，老婆问我：“大模型的参数到底是什么东西？”我：所谓参数，参数，参天之数。其实参数本身就是一个数值，可能其中一个是3.123456789，另一个是-0.0009527。以DeepSpeek-R1最大版本为例，它有671B个参数（B代表十亿）。你可以把这些参数想象成一张巨大的网格，每个网格中都存储着一个数值。一个大模型通常包含几千亿个参数，这些参数占据了模型体积的90%以上。

拟合

数据

反向传播算法

原创 6月前 131 阅读在51CTO的第一篇博文

欢迎