我把这个模型的连续形式写出来供大家参考,希望能帮助和我一样只想了解大概的同学节约点时间。
专业人士请绕道。
(有错轻喷)

ρ(x,t)为注意力分布函数,按上述偏微分方程演化,时刻满足归一化条件。
β(t)在0~1之间,取零时,注意力完全分散,取1时,高度集中
γ(t)与β拮抗,>=1,取值越大注意力越集中
M为二阶张量,主要决定注意力自动往周围转移的方向分布
α(t)决定注意力自动转移的速率
M,α在原文中并不存在,是我为了写出这个偏微分方程而造的。原文是用一种卷积实现这种rotate的。
λ(t)(图片里忘记打t了)在-1~0之间,决定注意力跳转的能力,取零将不接受上级指令,注意力完全不受干扰,取-1将以最快速度接受上级指令,转到相应的分布
K[key(t),Mem(x,t)]中,key为上级要求读取的数据的大概形式,Mem为内存中存储的数据,K[key,Mem]度量了Mem中的数据与要求读取的数据有多么相似,匹配度高的予以较高的权重,换言之,这是一个类似于联想的机制(即模糊搜索也即文章所谓的内容定位content-addressing)
专业人士请绕道。
(有错轻喷)

ρ(x,t)为注意力分布函数,按上述偏微分方程演化,时刻满足归一化条件。
β(t)在0~1之间,取零时,注意力完全分散,取1时,高度集中
γ(t)与β拮抗,>=1,取值越大注意力越集中
M为二阶张量,主要决定注意力自动往周围转移的方向分布
α(t)决定注意力自动转移的速率
M,α在原文中并不存在,是我为了写出这个偏微分方程而造的。原文是用一种卷积实现这种rotate的。
λ(t)(图片里忘记打t了)在-1~0之间,决定注意力跳转的能力,取零将不接受上级指令,注意力完全不受干扰,取-1将以最快速度接受上级指令,转到相应的分布
K[key(t),Mem(x,t)]中,key为上级要求读取的数据的大概形式,Mem为内存中存储的数据,K[key,Mem]度量了Mem中的数据与要求读取的数据有多么相似,匹配度高的予以较高的权重,换言之,这是一个类似于联想的机制(即模糊搜索也即文章所谓的内容定位content-addressing)