1. ​​http://rll.berkeley.edu/adversarial/​​   Adversarial Attacks on Neural Network Policies

就是对test时候的policy进行构造对抗样本,方法还是用的分类对抗样本的方法,对于DQN,把Q value做个softmax,一样地构造对抗样本。

黄世宇/Shiyu Huang's Personal Page:​​https://huangshiyu13.github.io/​