注意力机制
自经济学研究稀缺资源分配以来,我们正处在“注意力经济”时代, 即人类的注意力被视为可以交换的、有限的、有价值的且稀缺的商品。简而言之就是你的注意力和你的钱一样是有限的,而且可以用来交易。
10.1注意力提示
提示分为随意和不随意(随意是你想要干嘛,就是跟随你的意识。不随意的提示比如环境物体)。举个例子,在桌子上有很多白纸但有一个红色的咖啡杯,吸引了你的注意(不随意)。喝完咖啡后你想学习了,在纸上写点东西(随意)。(卷积等是不随意,如空间位置不变性,没有侧重的进行处理数据)。而注意力机制允许你通过随意线索对不随意线索key进行查询某些有偏向性的value来作为输入。
10.2注意力汇聚:Nadaraya-Watson 核回归
深度学习领域很多东西都是之前提出来的,比如卷积层,池化层都是上世纪八十年代就有的概念,上世纪 60年代其实就有数学概率方面对注意力机制的研究。如不带参数的注意力池化层,f(x)分母其实就做了个归一化,算了每个value乘自己权重最后值,最后证明就是softmax,其实有exp时候就应该想到和softmax有关了。
那数学家当时没有那么好的计算机来计算啊,就想这个数要是能一开始就算出来最好。后来这不是机器学习兴起,注意力机制可以加入可以学出来的w (阿尔法(x,xi))
简单点写就是这样:
10.3. 注意力评分函数
a就是计算出来的注意力分数,values是yi与softmax后的值相乘最后相加得到output
加性attention:k,q长度不同,最后a(k,q)是一个值,k,value可以长得不一样。等价于把k,q合起来放到一个隐藏大小为h,输出大小为1的单隐藏层
当q,k长度一样时,不学东西了。q,k先点积再除