简单题[期望DP]

原创

锐* 2021-12-27 15:46:47 博主文章分类：DP ©著作权

文章标签 期望初值 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者锐*的原创作品，请联系作者获取转载授权，否则将追究法律责任

也许更好的阅读体验

D e s c r i p t i o n \mathcal{Description} Description

桌面上有R张红牌和B张黑牌，随机打乱顺序后放在桌面上，开始一张一张地翻牌，翻到红牌得到1美元，黑牌则付出1美元。可以随时停止翻牌，在最优策略下平均能得到多少钱。

S o l u t i o n \mathcal{Solution} Solution

设 f [ i ] [ j ] f[i][j] f[i][j]表示有 i i i张红牌， j j j张黑牌的期望收益

考虑翻一张牌，有两种情况

有 \frac{i}{i+j} i+ji的概率翻到红牌，此后就只有 i−1张红牌， j张黑牌
有 \frac{j}{i+j} i+jj的概率翻到黑牌，此后就只有 i张红牌， j−1张黑牌

需要注意的是，不要忘了翻开的牌的贡献

翻开一张牌后，该颜色牌数目就少了一张

所以有

f [ i ] [ j ] = i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) f[i][j]=\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1) f[i][j]=i+ji(f[i−1][j]+1)+i+jj(f[i][j−1]−1)

由于是最优策略，所以咱是不可能赔钱的

f [ i ] [ j ] = m a x ( 0 , i i + j ( f [ i − 1 ] [ j ] + 1 ) + j i + j ( f [ i ] [ j − 1 ] − 1 ) ) f[i][j]=max(0,\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1)) f[i][j]=max(0,i+ji(f[i−1][j]+1)+i+jj(f[i][j−1]−1))