原创
2022-12-22 23:35:58
190 阅读
原创
2022-12-22 23:27:17
369 阅读
原创
2022-12-20 10:48:56
218 阅读
原创
2022-12-20 10:40:04
283 阅读
原创
2022-12-20 10:24:53
277 阅读
原创
2022-12-19 10:33:31
589 阅读
原创
2022-12-19 10:21:42
427 阅读
1收藏
原创
2022-12-18 19:57:25
155 阅读
原创
2022-12-18 19:48:20
236 阅读
原创
2022-12-17 22:59:54
154 阅读
1.算法概述假设我们的行为准则已经学习好了,现在我们处于状态s1,我在写作业,我有两个行为a1,a2,分别是看电视和写作业,根据我的经验,在这种s1状态下,a2写作业带来的潜在奖励要比a1看电视高,这里的潜在奖励我们可以用一个有关于s和a的Q表格代替,在我的记忆Q表格中,Q(s1,a1)=2要小于Q(s1,a2)=1,所以我们判断要选择a2作为下一个行为.现在我们的状态更新成s2,我们还是有两个同
原创
2022-12-17 22:39:41
157 阅读
原创
2022-12-16 14:03:29
150 阅读
原创
2022-12-16 13:46:35
579 阅读
原创
2022-12-15 15:05:24
327 阅读
原创
2022-12-15 14:52:55
117 阅读
原创
2022-12-14 22:17:09
326 阅读
原创
2022-12-14 21:57:30
184 阅读
原创
2022-12-12 21:05:57
388 阅读
原创
2022-12-12 20:46:25
638 阅读
原创
2022-12-10 21:24:48
172 阅读
原创
2022-12-10 21:12:39
325 阅读
原创
2022-12-09 14:19:10
245 阅读
原创
2022-12-09 14:10:45
189 阅读
原创
2022-12-08 19:13:20
67 阅读
原创
2022-12-08 19:05:58
147 阅读
原创
2022-12-07 11:55:55
71 阅读
原创
2022-12-07 11:44:14
131 阅读
原创
2022-12-06 17:54:59
605 阅读
原创
2022-12-06 17:45:41
232 阅读
原创
2022-12-05 14:35:53
105 阅读