おもろい研究!君ならできる、ここでできる|新しい生物学・生命科学を拓く大学院|大阪大学大学院生命機能研究科

English

学習に関与する脳内報酬予測誤差信号の計算過程を明らかに

論文誌情報 J Neurosci 29, 4858-4870 (2009)
著者 Ken-ichi Okada, Keisuke Toyama, Yuka Inoue, Tadashi Isa and Yasushi Kobayashi
論文タイトル Different Pedunculopontine Tegmental Neurons Signal Predicted and Actual Task Rewards
PubMed 19369554
研究室HP 視覚神経科学研究室〈大澤教授〉

図 PPTNで見つかった報酬予測反応と実報酬反応 ...

要旨

中脳の黒質緻密部や腹側被蓋野のドーパミン細胞(DA neuron)は報酬で条件付けされた手がかりや報酬に対してバースト応答をすることによって大脳基底核などに報酬予測誤差信号(報酬に対する予測と現実に得られた報酬の差)を送り、強化学習におけるシナプス可塑性(報酬予測の更新)を制御していると考えられている。DA neuronにおいてこの報酬予測誤差がどうやって計算されるかということがまさしく強化学習機構を解明する上で最も重要な問題の一つである。

DA neuron はドーパミン放出によるシナプス可塑性の制御という形で強化学習に重要な役割を果たしており、さまざまな部位から興奮性、抑制性入力を受けているが、それぞれの入力信号の性質が明らかにされていないために、いまだに報酬予測誤差の計算過程がわかっていない。さらに、DA neuronに対して興奮性入力がなければDA neuronはバースト応答をすることが困難であるため、特にDA neuronに対する興奮性入力の重要性が浮かび上がってくる。

脚橋被蓋核(Pedunculopontine Tegmental Nucleus: PPTN)は脳幹のもっとも主要なアセチルコリン性細胞の核であり、古くから睡眠覚醒の調節,運動制御,注意や学習と関係が深いと考えられてきた。 また、DA neuronに対してPPTNが最も強力な興奮性入力を供給していることからPPTNからの興奮性入力が、DA neuronにおける報酬予測誤差信号の生成に重要な役割を果たしていることが示唆される。

本研究ではサルに手がかり刺激で報酬量を予測させるような視覚誘導性サッケード課題を行わせ、PPTNのニューロン活動を記録し、報酬予測誤差に対するPPTNのニューロン活動の寄与を調べた。 実験の結果、 1) サルに報酬予告刺激を呈示すると活動が始まり、予測報酬量の大きさによって活動の大きさが変わる、課題終了まで続く持続的な活動(報酬予測反応:図A-C)と、 2) 実際にサルに報酬が与えられると活動が始まり、与えられた報酬量の大きさで大きさが変わる活動(実報酬反応:図D-F) が、PPTNのそれぞれ独立したニューロン群から得られた。

この結果から脳内報酬予測の更新に必要な、記憶された予測報酬の情報と実際に得られた報酬の情報が、それぞれ分離独立した形でサル脳幹PPTNに表現されているということが明らかになった。この研究は報酬予測誤差計算にPPTNが重要な役割を果たしており、さらにDA neuronでの報酬予測誤差計算過程に、報酬予測の短期記憶(ワーキングメモリー)情報と実報酬情報が関与している(短期記憶された報酬予測情報と実報酬情報がPPTNで同時表現され、予測と現実の誤差が計算される)ということを明らかにした。

FigPPTN-l.png

図 PPTNで見つかった報酬予測反応と実報酬反応

A-C)予測報酬量の度合いによって大きさが変わるワーキングメモリー応答。

  FT(注視刺激)の属性(形状や色など)によってサルに報酬量の大(赤)小(緑)が予告されている。ニューロン活動は予測報酬量の度合いによって大きさが 変わる。また、報酬予告刺激が消灯し、報酬予告と無関係なサッケードを行っているときも報酬予測反応は持続されたままである。この応答は報酬が与えられ (RD)、課題が終了するまで持続される。

A, 赤線:大報酬が予測される試行の活動電位、緑:小報酬が予測される試行の活動電位(横軸:時間、縦軸:各試行, ■,●報酬量予告刺激:■報酬量大/●報酬量小,黒線:報酬量と無関係な周辺刺激呈示、▼報酬量と無関係な周辺刺激に向かうサッケード開始、青線:与えら れた報酬(大3滴、小1滴)) B, ラスターグラム(A)を平均したもの。ラスターグラムの時刻は報酬予告刺激(FT)でそろえてある。 C, 30個の報酬予測細胞のニューロン活動平均

D-F) 実際に与えられた報酬に対する応答。

サルに実際に報酬が与えられた直後に起こり、与えられた報酬量(赤/大,緑/小)に従って大きさが変わるニューロン活動。このニューロン活動は報酬予測反応と違い短時間で終了する。

D, 赤:大報酬が予測される試行、緑:小報酬が予測される試行のラスターグラム
E, ラスターグラム(D)を平均したもの。ラスターグラムは報酬が与えられた時刻(RD)でそろえてある。
F, 15個の実報酬細胞のニューロン活動平均
FT: 報酬量予告刺激提示 ST: サッケード開始刺激提示 RD: ジュース報酬。