
用概率论的语言讲。
Our goal is to find a set of basis feature vectors

such that the distribution of images

is as close as possible to the empirical distribution of our input data

.
使条件概率

接近经验得到的

。什么意思呢?
如果我们强制使P(ai)的概率分布复合右上图,即,使表征这些基函数的神经元的激活量大部分时间都在某个很小的值附近,极少远离这个值。
那么P(

| φ)就是神经网络按照这个概率分布推导出来的图片x的条件概率分布,这个值应该接近P*(x),即经验观察到的图片的概率分布。