【渣解读】Neural Turing Machines的连续形式

ieBugH
9S
12

我把这个模型的连续形式写出来供大家参考，希望能帮助和我一样只想了解大概的同学节约点时间。
专业人士请绕道。
（有错轻喷）

ρ(x,t)为注意力分布函数，按上述偏微分方程演化，时刻满足归一化条件。
β(t)在0~1之间，取零时，注意力完全分散，取1时，高度集中
γ(t)与β拮抗，>=1,取值越大注意力越集中
M为二阶张量，主要决定注意力自动往周围转移的方向分布
α(t)决定注意力自动转移的速率
M,α在原文中并不存在，是我为了写出这个偏微分方程而造的。原文是用一种卷积实现这种rotate的。
λ(t)(图片里忘记打t了）在-1~0之间，决定注意力跳转的能力，取零将不接受上级指令,注意力完全不受干扰，取-1将以最快速度接受上级指令，转到相应的分布
K[key(t),Mem(x,t)]中，key为上级要求读取的数据的大概形式，Mem为内存中存储的数据，K[key,Mem]度量了Mem中的数据与要求读取的数据有多么相似，匹配度高的予以较高的权重，换言之，这是一个类似于联想的机制（即模糊搜索也即文章所谓的内容定位content-addressing）