HOME 
 

日本神経回路学会 オータムスクール

ASCONE2012 『報酬とは 〜 行動の源を紐解く』

Autumn School for Computational Neuroscience

2012年11月23日(金)〜 2012年11月26日(月) かたくら諏訪湖ホテル


Lecture I 「強化学習と意思決定の脳科学」
講師:銅谷 賢治(沖縄科学技術大学院大学)

Lecture II 「To do, or not to do: 行動実行の判断と報酬の価値」
講師:南本 敬史(放射線医学総合研究所)

Lecture III 「予測と推定に基づく意思決定」
講師:吉田 和子(ATR)

Lecture IV 「報酬系の異常として精神疾患は理解できるのか?」
講師:高橋 英彦(京都大学)

Lecture V 「数理から見た報酬と学習」
講師:森村 哲郎(IBM東京基礎研究所)

Lecture VI 「価値と決定の多元性に関する神経生態学的根拠について」 
講師:松島 俊也(北海道大学)

Lecture VII  「強化の見取り図・再考」
講師:坂上 貴之(慶應大学)

最終日以外は、1講師1トピックについて、 以下のスケジュールで行っていきます。
  1. 「基礎講義」(約1時間)
    問題意識までの導入を行います。 例えば、不思議な脳の現象などを紹介し、 その問題を考えるための材料を提供します。
  2. 「グループ討論」(約2〜3時間)
    小グループに分かれて、提示された問題について自ら考えながら、 チューター、講師らと共に討論します。 最終的にそのグループの意見として全体に発表できるように、 意見をまとめていきます。
  3. 「グループ発表」(約30分)
    各グループで行った討論の結果を代表者が全体に発表します。
  4. 「発展講義」(約30分)
    講師による解説を行います。

11月23日

13:00-13:15 開催の辞

Lecture I  「強化学習と意思決定の脳科学」

講師:銅谷 賢治(沖縄科学技術大学院大学)

強化学習は動物や人間が行動探索と報酬フィードバックにより行動を学習する過程を抽象化する理論であり、数理的には動的計画法を環境のモデルを用いずオンライン的に近似する手法ととらえることができる。特に報酬予測の時間差分を実効的な報酬信号とするTD型の強化学習アルゴリズムは、大脳基底核とドーパミン系の機能の理解に重要な役割を果たして来た。

しかし人間の実世界での行動では、全くのランダム探索から始まる純粋なモデルフリーの強化学習はむしろ稀であり、過去の経験や知識により、行動による状態の変化を予測する内部モデルを用いた、モデルベースの行動選択や学習が重要な役割を果たしていると考えられる。行動の結果を予測する「脳内シミュレーション」のようなことが、脳の神経回路でどうして可能になるのかは、思考、意識、言語などのしくみの解明につながる重要な問題である。

また強化学習の工学応用では、不確かなモデルを使ったりモデルの学習に多大なデータを使うよりは、行動則を直接学習してしまった方が早くて確実という現実もある。モデルフリー、モデルベースの手法をどう使い分け、組み合わせるかは実用的にも重要な課題であり、脳の並列的な学習回路の機能分担を理解する上でも重要な手がかりを与えてくれるはずである。

この講演ではこれらに関連して、3日間の議論のねたとなるような話題を提供する。

13:15-14:15 基礎講義

14:15-16:15 グループ討論

討論課題:
  • 人間や動物の学習のうち、教師あり学習、強化学習、教師なし学習の例を考えよう
  • 人間や動物の行動/学習のうち、モデルフリー、モデルベースの例を考えよう
  • それらは脳のどの部分の、どのような働きで可能になるだろうか?

16:15-16:45 グループ発表

16:45-17:15 発展講義

18:00-19:00 夕食

19:00-21:00 Welcome party

11月24日

Lecture II 「To do, or not to do: 行動実行の判断と報酬の価値」

講師:南本 敬史(放射線医学総合研究所)

ある行動を実行すべきか否かの判断は、その結果得られると予測される報酬の価値に大きく依存する.この場合の価値は、量や確率などの外部変数だけでなく、判断する時点において主体がどの程度その報酬を必要とするかという内部状態も影響する.講義では、一定の行動を実行する/しないの判断について動物の実際の振る舞いを紹介し、その背景にある原理や脳内機構について議論する.

9:00 - 10:00 基礎講義

10:00-12:00 グループ討論

討論課題:
  • サルの課題拒否率と報酬価値に見られる反比例関係の背後にあるメカニズムは?
  • 薬理や損傷の操作による反比例関係の崩壊は何を意味するか?
  • ヒトでこの関係を調べる良い方法は?

12:00-13:00 昼食

13:00-13:30 グループ発表

13:30-14:00 発展講義

Lecture III 「予測と推定に基づく意思決定」

講師:吉田 和子(ATR)

我々ヒトは、過去の経験や記憶から現在あるいは未来の状態を推定/予測することにより、複雑な環境における意思決定を行うことができる。講義の前半では、このような計画的行動の原理を数理的に示したモデルベース意思決定について説明し、数理モデルを用いたヒトの行動解析と脳活動解析手法について述べる。後半では、具体的な研究課題として迷路探索課題と協調競合課題を取り上げ、予測的意思決定に関わるヒトの脳内機構について議論する。

15:00-16:00 基礎講義

16:00-18:00 グループ討論

討論課題:
  • 社会行動特有の機能、脳部位は本当に必要か?
  • Medial PFC, Frontopolar PFCの機能は?
  • より良い集団意思決定に必要な条件は?

18:00-19:00 夕食

19:00-19:30 グループ発表

19:30-20:00 発展講義

21:00-24:00 ポスターセッション

11月25日

Lecture IV 「報酬系の異常として精神疾患は理解できるのか?」

講師:高橋 英彦(京都大学)

精神・神経疾患は多かれ少なかれ意思決定の障害を有する。今回のテーマである“報酬とは”と考えたときに、薬物依存やギャンブル依存などが最初に思いつく。しかし、今スクールでは、精神医学の最大の謎であり、課題である統合失調症という病気を考えてみたい。その病態や治療にドーパミンが関わるのは間違いない事であるが、これまで得られた強化学習や報酬に関するドーパミンの基礎的な知見から複雑で多彩な症状を呈する統合失調症の本質に迫れるのか一緒に考えたい。

9:00 - 10:00 基礎講義

10:00-12:00 グループ討論

討論課題:
  • モデルフリー、モデルベースの学習の異常として説明できそうな統合失調症の症状は?
  • なぜ、統合失調症患者でドーパミンD2受容体をブロックすると陽性症状は改善するのか?
  • 統合失調症の症状、状態を定量的に評価できる簡単な(学習)実験は?

12:00-13:00 昼食

13:00-13:30 グループ発表

13:30-14:00 発展講義

Lecture V 「数理から見た報酬と学習」

講師:森村 哲郎(IBM東京基礎研究所)

我々は何かの目的をもって学習をするが、その目的を直接的もしくは間接的に定めるものが”報酬(損失)”である。本講義では、数理的に報酬と学習の関係を紐解き、代表的な学習アルゴリズムを紹介する。はじめに、報酬の役割を明確にし、学習が最適化問題として定式化されることをみる。学習問題が定式化されれば、あとは解くだけだが、報酬のタイプや対象とする環境やシステムの性質、それらに関する事前知識により、その解法は大きく異なる。例えば、環境と学習者が相互作用し、かつその相互作用の影響が未知の場合は、強化学習問題となる。最後に、近年の学習理論の展開として、リスク考慮や意思決定則の時間整合性について議論したい。

15:00-16:00 基礎講義

16:00-18:00 グループ討論

討論課題:
  • モデルの正則化に際し、問題の仮定を間違え、誤った手法を適用するとどうなるか?
    • マルコフ性が必要なのに、i.i.d.を仮定した場合やその逆の場合
    • 解ける場合であっても、学習の効率はどうなるか?
  • 強化学習問題におけるモデルの正則化とは?

18:00-19:00 夕食

19:00-19:30 グループ発表

19:30-20:00 発展講義

21:00-24:00 ポスターセッション

11月26日

Lecture VI 「価値と決定の多元性に関する神経生態学的根拠について」

講師:松島 俊也(北海道大学)

従来、報酬価値を一意に定まるスカラー量として捉えることが標準であ る。しかし、採餌生態の枠組みから見ると、餌の量、遅延(近さ)、消費コスト(エ フォート)など、採餌決定を支配する価値と決定過程は、多元的であると考える事が 妥当である。この講義では、動物が示す一連の採餌行動に着目し、多元性を示唆する 根拠を提示する。複数の決定者が「舵を奪い合う」過程・機構について、参加者の考 察を求めたい。

8:30 - 9:30 基礎講義

9:30 - 11:30 グループ討論

討論課題:
  • リスク感受性の不整合(量と遅延)を説明する方法を、できるだけ考えて下さい。 (if any)
  • 生存と繁殖、エネルギー保持量が二つの閾値を持つ場合、リスク感受性は繁殖個体と非繁殖個体でどのように分化するでしょうか?
  • コンコルドの誤信の適応的意義は何でしょうか?最大化されているのは、いかなる関数でしょうか? (if any)

11:30-12:30 昼食

12:30-13:00 グループ発表

13:00-13:30 発展講義

Lecture VI 「強化の見取り図・再考」

講師:坂上 貴之(慶應大学)

行動研究は、強化や弱化(報酬や罰)の機能についての長い歴史を持っている。効果の法則、場面間転移性、強化スケジュール、マッチングの法則、反応遮断化理論、強化最大化理論などの果たした役割を再評価するとともに、他領域での研究との有効な接点をどのように形成していくかについて考える。

14:00-15:30 基礎講義

15:40-17:00 発展講義

運営

加藤 英之(理研BSI−トヨタ連携センター)
鮫島 和行(玉川大学 脳科学研究所)
酒井 裕 (玉川大学 脳科学研究所)
筒井健一郎(東北大学 生命科学研究科)
山本 慎也(産業技術研究所)
渡辺 正峰(東京大学 工学系研究科)

顧問

丹治 順 (東北大学包括的脳科学研究・教育推進センター)
銅谷 賢治(沖縄科学技術大学院大学)

主催

日本神経回路学会

共催

新学術領域研究(文部科学省 科学研究費補助金) 東北大学包括的脳科学研究・教育推進センター