qq5b7f4f8742fb5的博客_网络爬虫(Python),生物信息,C/C++_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

凸优化 3：最优化方法

凸优化 3：最优化方法

Hessian矩阵是一个二阶导数矩阵，它描述了一个多变量函数的局部曲率。具体来说，对于一个具有多个参数的函

算法

优化问题

牛顿法

最优解

原创精选 7月前 214 阅读

【数据不完整？用EM算法填补缺失】期望值最大化 EM 算法：睹始知终

如果一个国家足球不行，把每个孩子的高考分数和足球水平挂钩，人们就会大力投资足球设施，大爷大妈也会把广场让出去给孙子踢足球，谁跟我孙子抢我真的会发疯 — 整个国家都会自动迭代寻找最优解，每个人说话都是公司价值观。在非凸函数中，可能存在多个局部最优解，这意味着算法可能会在达到一个局部最优点后停止，而

算法

迭代

概率分布

最优解

原创 7月前 130 阅读

软性演员-评论家算法 SAC

软性演员-评论家算法 SAC

在图3a中，我们只看到了策略的原始形态，而在图3b中，我们看到了这个策略如何通过与Q函数结合来调整，以包含探索性。理论上，当智能体的学习收

算法

最优解

模态

标准差

原创 7月前 215 阅读

【解决复杂链式任务，打造全能助手】LangChain 大模型打造钢铁侠的全能助理 Jarvis

2022年8月，谷歌大脑研究者发布一篇论文，专门讲了大型语言模型的一些涌现能力，包括少样本学习、突然学会做加减法、突然之间能做大规模、多任务的语言理解、学会分类等等……比如你让模型描写一下“夏天”，它会说：“夏天是个阳光明媚的季节，人们可以去海滩游泳，可以在户外野餐。既然如此，只要我们设置好让模型每次都先思考

langchain

人工智能

机器学习

语言模型

数据

原创精选 7月前 437 阅读

深度确定性策略梯度 DDPG

在DDPG中，有四个主要的神经网络 - Actor网络和Critic网络及它们各自的目标网络（Target Actor和Target Critic）。整个流程是一个循环过程，Actor和Critic网络的参数通过与环境的交互和优化器的更新不断地进行调整，以此来提升策略的性能。DDPG的核心思想是使用深度学习方法来逼近一个最优策略，同时通过经验回放和目标网络技

算法

最小化

四元组

权重

原创 7月前 174 阅读

婚姻情感·十二

脸上的兰蔻，嘴上的迪奥，手上的戒指，还有身上的香水和配饰，都是我起早贪黑赚的，到底我是有什么问题，让你觉得一杯

经验分享

微信

原创 7月前 24 阅读

如何解决大模型的「幻觉」问题？

如何解决大模型的「幻觉」问题？

使用一些统计学指标（如ROUGE、BLEU）来评估模型输出和目标参考信息（通常是正确的文本）之间的相似度。这个目

算法

数据

语言模型

数据集

原创 7月前 252 阅读

异步优势演员-评论家算法 A3C

异步优势演员-评论家算法 A3C

这意味着每个工作者都可以在自己的环境副本中独立地进行学习，这增加了样本的多样性并加快了训练过程。第二张图在第一

算法

权重

Network

常见技术

原创 7月前 172 阅读

优势演员-评论家算法 A2C

算法有 3 个网络（策略网络、价值函数-Q网络和V网络），我们最终目的不是计算 Q网络和V网络的具体数值，而是差异

算法

方差

精确计算

强化学习

原创 7月前 208 阅读

【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评论家算法 A2C、异步优势演员-评论家算法 A3C、深度确定性策略梯度 DDPG、软性演员-评论家算法 SAC

【强化学习战场谁为王？】近端策略优化算法 PPO、优势演员-评论家算法 A2C、异步优势演员-评论家算法 A3C、深度确定性策略梯度 DDPG、软性演员-评论家算法 SAC

您提到的演员-评论家 (Actor-Critic) 变种算法，包括 A2C (优势演员-评论家算法)、A3C (异步优势演员-评论家算法)、DDPG (深度确定性策略梯度) 和 SAC (软性演员-评论家算法)，都是强化学习领域的重要算法。在需要快速迭代和处理大规模状态空间的任务中，A3C 和 PPO 可能表现更优。总结来说，没有一个算法可以称为“真正的王者”，因为每个算法都有其适

算法

优化算法

强化学习

深度学习

原创 7月前 547 阅读

【OpenAI Q* 超越人类的自主系统】DQN ：Q-Learning + 深度神经网络

【OpenAI Q* 超越人类的自主系统】DQN ：Q-Learning + 深度神经网络

机器学习是把带标签的数据训练模型，使得预测值尽可能接近真实值。强化学习是通过和环境交互，奖励来训练模型，使得

人工智能

神经网络

损失函数

深度神经网络

数据

原创 7月前 5 阅读

演员-评论家算法：多智能体强化学习核心框架

这可能导致智能体沿着曲面上的梯度盲目地寻找更高奖励的区域，这样的路径可能会很曲折，因为它会对每一个小波动都做出反

算法

方差

强化学习

概率分布

原创 7月前 0 阅读

【史上最小白】Bert 分析类大模型：双向 Transformer 编码器

【史上最小白】Bert 分析类大模型：双向 Transformer 编码器

通过混合这三种方法，模型在训练时无法确定遇到的单词是否是原文中的单词、一个随机单词还是一个遮盖的单词，从而迫使模型必

bert

transformer

人工智能

语言模型

编码器

原创 7月前 192 阅读

凸优化 2：如何判定凸函数？

凸优化 2：如何判定凸函数？

左图，凸集合就像一个没有凹陷的形状，内部包含了所有连接边上任意两点的线段。右图，非凸集合就像一个有凹陷的形状，我能找

深度学习

定义域

斜率

最优解

原创 7月前 142 阅读

婚姻总结·十一

我在赚钱（从上线到设计、运营、推广，都是我一个人做，和每个来咨询的人回复），我还要学习总结，以及和合伙人

笔记

原创 7月前 109 阅读

【史上最本质】序列模型：RNN、双向 RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer、Bert

【史上最本质】序列模型：RNN、双向 RNN、LSTM、GRU、Seq-to-Seq、束搜索、Transformer、Bert

在传统神经网络的基础上引入了循环连接，能够通过记忆过去的信息来处理当前的输入，从而能够处理变长序列数据、捕捉序列数据中的上

lstm

gru

深度学习

数据

搜索

原创 7月前 225 阅读

【ChatGPT 默认强化学习策略】PPO 近端策略优化算法

引入基线之后，智能体在更新其策略时，会考虑与基线的差异，而不仅仅是奖励的绝对值。这可能导致智能体沿着曲面上的梯度盲目地寻找更高奖

算法

强化学习

数据

解决方案

原创 7月前 248 阅读

常见推断方法一览：极大似然估计、最大后验估计、期望最大化、贝叶斯推断、马尔科夫链蒙特卡洛方法、变分推断

如果这个最大的概率发生在70%，那你就会说根据目前的数据，最有可能的情况是硬币正面朝上的概率是70%，参数就是这个。MLE 的目标是找

人工智能

算法

机器学习

数据

概率分布

原创 7月前 135 阅读

【挑战全网最易懂】深度强化学习 --- 零基础指南

【挑战全网最易懂】深度强化学习 --- 零基础指南

强化学习介绍离散场景，使用行为价值方法连续场景，使用概率分布方法实时反馈连续场景：使用概率分布 + 行为价值方法强化学习

人工智能

强化学习

概率分布

优化算法

原创 7月前 146 阅读