网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月27日漏签0天
人工智能吧 关注:116,862贴子:509,616
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 27回复贴,共1页
<<返回人工智能吧
>0< 加载中...

多巴胺在强化学习中的作用

  • 只看楼主
  • 收藏

  • 回复
  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
摘要:简要介绍了Schultz等人的多巴胺收益预测误差假说,反驳Redgrave等人的新异刺激编码假说,在前者的基础上进一步提出多重收益编码\解码假说,用以解释为何新异刺激会引起phasic多巴胺的释放。
目录:
1、背景介绍
-1.1 什么是强化学习
-1.2 中脑多巴胺的特征及通路
2、多巴胺的功能
-2.1、收益预测误差的编码?(Schultz,1998)
-2.2、新异刺激的编码?(Redgrave,1999)
3、奖赏信号的多重收益编码\解码假说——不同的功能系统需要不同的收益编码。
-3.1 为什么需要多重收益编码\解码系统
-注意系统奖赏的独特性
-目标驱动的行为,其奖赏的独特性
-觉醒(arousal)引起的单一收益信号神经网络的计算误差
-3.2 多重收益编码系统的证据:Lateral Habenula 侧缰核与负性奖赏编码
-3.3 多重收益编码\解码模型


2025-08-27 21:54:07
广告
不感兴趣
开通SVIP免广告
  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
多巴胺的特性
人脑多巴胺有四条通路,1、2、3、4、(wiki/Dopaminergic_pathways)

现有的证据表明,多巴胺有多种功能,包括运动控制(帕金森氏病),调整内分泌(泌乳素),记忆、注意、问题解决等额叶神经功能(ADHD),控制恶心和呕吐,镇痛等等。
而特别地,中脑 Substantia Nigra pars compacta (SNc) 和 Ventral Tegmental Area (VTA) 区域多巴胺能神经元被认为与奖赏系统有关,schultz认为多巴胺被表征了收益预期的误差,在其经典实验中,当实验动物的嘴接触到果汁时,75%的多巴胺细胞产生时相性的激活,而当这一“奖赏信息”总是出现在一个视觉刺激之后时,经过一段时间的训练,多巴胺将只对视觉刺激激活,而不对果汁产生激活;而一旦“奖赏预测信息”没有出现在“奖赏信息”之后,多巴胺会产生抑制。(Schultz et al,1997)这一实验被多次重复验证。


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
此外,多巴胺确实会对任何新异刺激产生反应,比如当一只猴子见到一个没有见过的视觉信息,多巴胺会对这一视觉信息产生反应,但重复若干次后,这种反应会消失(Ljungberg et al 1992),因此与作为“奖赏预测”的多巴胺反应不同。

在Schultz的实验中,对于条件刺激的“奖赏预测”多巴胺反应是在作为新异刺激的反应消失之后才出现的。并且,“奖赏预测”多巴胺信号的形状也存在差别

作为非条件刺激的视觉信息(CS-)产生的多巴胺信号波幅更低,并且时常在其之后跟随多巴胺抑制。


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
尽管多巴胺的生理特征及投射通路的走向确实能够和TD类算法十分完美的契合,但在Schultz的理论中,仍然有一些问题没有得到很好的解释:
1、动物能够根据条件刺激准确预测固定时间之后的奖赏。在生物系统中,任何刺激是如何在长时程内表征的?才能达到这种准确预测。
2、多巴胺对厌恶刺激并不敏感,单独针对食欲刺激的TD error并不能满足TD算法的要求。对此Schultz认为厌恶刺激中的负性价值预测误差可能又其他未被发现的系统编码。


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2739096/


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Multiple model-based reinforcement learning explains dopamineneuronal activity
http://pt.usc.edu/uploadedFiles/USC_Physical_Therapy/Subpages/Content/Research/Research_Laboratories/Clinical_Exercise_Research_Center(1)/Publications/bertin2007.pdf


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
单一剂量多巴胺拮抗剂削弱成年人类强化学习的能力:
http://www.ncbi.nlm.nih.gov/pubmed/17909750


2025-08-27 21:48:07
广告
不感兴趣
开通SVIP免广告
  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
SPAUN:
"we have developed adopamine-based reinforcement learning system (Stewart,Bekolay, & Eliasmith, 2012) that has been integrated with Spaun in an n-arm bandit task. "
http://mindmodeling.org/cogsci2012/papers/0184/paper0184.pdf
Stewart, T.C., Bekolay, T., Eliasmith, C. (2012). Learningto select actions with spiking neurons in the basal ganglia.Frontiers in Decision Neuroscience. 6.
http://www.frontiersin.org/decision_neuroscience/10.3389/fnins.2012.00002/abstract


  • ezjf0001
  • Alphago
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
多巴胺可以做成药给人吃,增加人的记忆力吗,人能达到过目不忘吗?


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
1、“dopaminergic reward prediction error” hypothesis (DRPE)
other candidate explanations for dopamine activity, such as the
2、“salience” hypothesis [Zink et al., 2003], “incentive salience” hypothesis
3、“agency” hypothesis [Redgrave and Gurney 2006]


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
The pattern of activity that the ventral striatum shows is both necessary and sufficient for use in an RPE system.
http://www.jneurosci.org/content/30/40/13525.full.pdf+html


  • Pallashadow
  • 9S
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
综述:强化学习的光明、黑暗、与丑陋面
http://www.gatsby.ucl.ac.uk/~dayan/papers/dayanniv08.pdf


  • D系黑
  • 贾维斯
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
还有一个理论。。。hierarchical reinforcement learning,基底神经节是hierarchical的,并且hierarchical进行reward prediction error。


2025-08-27 21:42:07
广告
不感兴趣
开通SVIP免广告
  • Tigerjinus
  • 纳斯德
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
我得意的笑,我得意的笑...就知道你会发总结帖...
多巴胺这个方向很多可研究的东西,功能简单粗暴,影响深远,脑成像的不完善让这些猜测没办法确认


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 27回复贴,共1页
<<返回人工智能吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示