我码玄黄的博客_AI探索

大模型的涌现：当参数洪流冲破智能阈值

大模型的涌现：当参数洪流冲破智能阈值前言：从"人工智障"到"类人智能"的跳跃 2023年3月，GPT-4在数学竞赛中解出人类选手耗时15分钟的几何题，而它的训练数据里从未包含类似题型。这种超越训练目标的"意外能力"，正是大模型"涌现"的惊鸿一瞥——当参数规模突破千亿级，AI突然获得了设计者都未曾预设的智能，如同原

人工智能

LLM

大模型

原创 7月前 125 阅读

大模型时代，为什么模型都是多少B？

数据

自然语言处理

复杂度

人工智能

大模型

原创 7月前 189 阅读

大模型时代，什么是tokens？

未登录词

人工智能

自然语言处理

原创精选 7月前 301 阅读

DeepSeek提问秘籍：“榨干”AI的潜力，轻松搞定复杂问题！

DeepSeek提问秘籍：1000字教你如何“榨干”AI的潜力，轻松搞定复杂问题！

数据

错误信息

推理模型

原创 7月前 128 阅读

字节AI编程神器Trae横空出世，效率提升十倍！

字节AI编程神器Trae横空出世，效率提升1000%！前言 Trae是字节跳动推出的智能编程助手，旨在成为用户的“编程小老师”。即使没有编程基础，用户只需用中文描述需求，Trae便能自动生成代码。无论是开发飞机大战等小游戏，还是进行数据分析等重复性工作，Trae都能在几分钟内完成任务。亮点零门槛上手即使是没有编程经验的小白，也能轻松使用Trae进行开发。跨平台支持 Tra

Windows

小游戏

创建项目

Trae

AI编程

原创 7月前 499 阅读

Oumi ：AI开发的未来？

Oumi以其强大的功能和灵活的架构，正在成为AI开发领域的重要工具。无论你是研究人员、开发者还是企业用户，Oumi都能为你提供所需的工具和工作流程，帮助你构建最先进的AI模型。

开发者

数据

模态

开源

ai

原创 7月前 131 阅读

MCP：重塑AI与数据交互的新标准

MCP作为开放协议，通过标准化设计解决AI与外部数据源集成挑战，降低开发复杂性，增强安全与隐私。采用C/S架构，支持多场景应用。预计未来将成为AI领域重要基础设施。

数据源

服务器

数据库

AI

mcp

原创 7月前 500 阅读

智能模型轻量化：知识蒸馏技术如何重塑AI部署格局

知识蒸馏技术通过构建“师生传承”框架实现模型智能迁移，应用于AI普惠化。其实现包括概率蒸馏、结构进化、多模态融合。产业落地案例显著，但仍面临异构适配、知识量化挑战，未来发展将向自演进、量子化、伦理化迈进。

模态

人工智能

特征空间

蒸馏

原创 7月前 112 阅读

HiveChat：为中小团队量身打造的 AI 聊天应用

HiveChat是专为中小团队设计的AI聊天应用，支持多种AI模型，提供LaTeX/Markdown渲染、DeepSeek思维链、图像理解等功能，支持本地、Docker、Vercel部署，提高沟通效率，促进知识共享和创新思维。

初始化

PostgreSQL

Docker

github

AI

原创 7月前 131 阅读

注意力机制：让机器学会“挑重点”

注意力机制让机器识别并聚焦关键信息，分全局、局部、自注意力和多头注意力等，应用于机器翻译、文本生成、图像识别和推荐系统，提升模型效率和任务表现。

权重

应用场景

人工智能

原创精选 7月前 346 阅读

DeepSeek开源周：技术革新与社区共享的力量

DeepSeek开源周推出五个项目：FlashMLA（GPU解码内核）、DeepEP（通信库）、DeepGEMM（FP8矩阵乘法库）、DualPipe&EPLB（分布式训练优化）、3FS&Smallpond（数据存储处理），全方位支持AI开发部署。

github

源地址

人工智能

deepseek

原创 7月前 836 阅读

Deepseek开源周第五天：3FS-AI界的"数据高速公路"

Deepseek开源周第五天发布3FS和Smallpond。3FS是高性能分布式文件系统，速度快，有智能缓存和数据一致性功能。Smallpond是基于3FS的数据处理框架。两者助力AI训练和推理更高效。

数据

github

开发者

deepseek

原创 8月前 146 阅读

Deepseek开源周第四天：从 DualPipe 到 EPLB

DeepSeek开源周第四天发布DualPipe（双向流水线并行算法）、EPLB（专家并行负载均衡器）和ProfileData（性能分析数据），支持V3/R1模型训练与推理，优化计算-通信重叠和负载均衡，提高效率，降低成本。

负载均衡

Data

数据

deepseek

原创精选 8月前 232 阅读

Deepseek开源周第三天：DeepGEMM发布

DeepGEMM 的开源为深度学习和高性能计算领域带来了新的可能性。它不仅提供了高效、简洁的 FP8 矩阵乘法实现，还通过运行时编译和细粒度缩放技术，解决了低精度计算中的关键问题。

矩阵乘法

深度学习

浮点数

deepseek

原创 8月前 165 阅读

Deepseek开源周第二天：DeepEP发布

DeepSeek团队开源DeepEP，专为MoE和EP设计的高效通信库，优化GPU间通信，实现高吞吐量和低延迟，加速大规模模型训练和推理，适用于实时推理场景，已获4.1K star。

github

人工智能

生产环境

deepseek

原创 8月前 148 阅读

Deepseek开源周第一天：FlashMLA来袭

Deepseek开源周首日发布FlashMLA项目，专为HopperGPU打造的高效MLA解码内核，优化解码过程，支持可变长度序列服务。安装便捷，性能卓越，需配备HopperGPU及CUDA12.3+和PyTorch2.0+。

开发者

python

数据

deepseek

原创 8月前 151 阅读

DeepSeek-R1本地化部署的硬件要求

DeepSeek-R1不同版本硬件要求各异，小型模型适合个人测试，中型适合轻量级任务，大型适合专业领域，超大型适合高复杂度任务。用户应根据需求和预算选择合适版本。

复杂度

高精度

不同版本

DeepSeek

DeepSeek-R1

原创 8月前 614 阅读

Windows 下 Ollama 安装deepseek本地模型

Windows下Ollama安装需下载并安装，设置环境变量如OLLAMA_MODELS等以优化体验。安装本地模型后，即可使用。

环境变量

Windows

加载

deepseek

原创 8月前 256 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大模型的涌现：当参数洪流冲破智能阈值

大模型时代，为什么模型都是多少B？

大模型时代，什么是tokens？

DeepSeek提问秘籍：“榨干”AI的潜力，轻松搞定复杂问题！

字节AI编程神器Trae横空出世，效率提升十倍！

Oumi ：AI开发的未来？

MCP：重塑AI与数据交互的新标准

智能模型轻量化：知识蒸馏技术如何重塑AI部署格局

HiveChat：为中小团队量身打造的 AI 聊天应用

注意力机制：让机器学会“挑重点”

DeepSeek开源周：技术革新与社区共享的力量

Deepseek开源周第五天：3FS-AI界的"数据高速公路"

Deepseek开源周第四天：从 DualPipe 到 EPLB

Deepseek开源周第三天：DeepGEMM发布

Deepseek开源周第二天：DeepEP发布

Deepseek开源周第一天：FlashMLA来袭

DeepSeek-R1本地化部署的硬件要求

Windows 下 Ollama 安装deepseek本地模型

欢迎