Lecture I | 「強化学習と意思決定の脳科学」 | |
講師:銅谷 賢治(沖縄科学技術大学院大学) | ||
Lecture II | 「To do, or not to do: 行動実行の判断と報酬の価値」 | |
講師:南本 敬史(放射線医学総合研究所) | ||
Lecture III | 「予測と推定に基づく意思決定」 | |
講師:吉田 和子(ATR) | ||
Lecture IV | 「報酬系の異常として精神疾患は理解できるのか?」 | |
講師:高橋 英彦(京都大学) | ||
Lecture V | 「数理から見た報酬と学習」 | |
講師:森村 哲郎(IBM東京基礎研究所) | ||
Lecture VI | 「価値と決定の多元性に関する神経生態学的根拠について」 | |
講師:松島 俊也(北海道大学) | ||
Lecture VII | 「強化の見取り図・再考」 | |
講師:坂上 貴之(慶應大学) | ||
13:00-13:15 開催の辞
強化学習は動物や人間が行動探索と報酬フィードバックにより行動を学習する過程を抽象化する理論であり、数理的には動的計画法を環境のモデルを用いずオンライン的に近似する手法ととらえることができる。特に報酬予測の時間差分を実効的な報酬信号とするTD型の強化学習アルゴリズムは、大脳基底核とドーパミン系の機能の理解に重要な役割を果たして来た。
しかし人間の実世界での行動では、全くのランダム探索から始まる純粋なモデルフリーの強化学習はむしろ稀であり、過去の経験や知識により、行動による状態の変化を予測する内部モデルを用いた、モデルベースの行動選択や学習が重要な役割を果たしていると考えられる。行動の結果を予測する「脳内シミュレーション」のようなことが、脳の神経回路でどうして可能になるのかは、思考、意識、言語などのしくみの解明につながる重要な問題である。
また強化学習の工学応用では、不確かなモデルを使ったりモデルの学習に多大なデータを使うよりは、行動則を直接学習してしまった方が早くて確実という現実もある。モデルフリー、モデルベースの手法をどう使い分け、組み合わせるかは実用的にも重要な課題であり、脳の並列的な学習回路の機能分担を理解する上でも重要な手がかりを与えてくれるはずである。
この講演ではこれらに関連して、3日間の議論のねたとなるような話題を提供する。
13:15-14:15 基礎講義
14:15-16:15 グループ討論
16:15-16:45 グループ発表
16:45-17:15 発展講義
18:00-19:00 夕食
19:00-21:00 Welcome party
ある行動を実行すべきか否かの判断は、その結果得られると予測される報酬の価値に大きく依存する.この場合の価値は、量や確率などの外部変数だけでなく、判断する時点において主体がどの程度その報酬を必要とするかという内部状態も影響する.講義では、一定の行動を実行する/しないの判断について動物の実際の振る舞いを紹介し、その背景にある原理や脳内機構について議論する.
9:00 - 10:00 基礎講義
10:00-12:00 グループ討論
12:00-13:00 昼食
13:00-13:30 グループ発表
13:30-14:00 発展講義
我々ヒトは、過去の経験や記憶から現在あるいは未来の状態を推定/予測することにより、複雑な環境における意思決定を行うことができる。講義の前半では、このような計画的行動の原理を数理的に示したモデルベース意思決定について説明し、数理モデルを用いたヒトの行動解析と脳活動解析手法について述べる。後半では、具体的な研究課題として迷路探索課題と協調競合課題を取り上げ、予測的意思決定に関わるヒトの脳内機構について議論する。
15:00-16:00 基礎講義
16:00-18:00 グループ討論
18:00-19:00 夕食
19:00-19:30 グループ発表
19:30-20:00 発展講義
21:00-24:00 ポスターセッション
精神・神経疾患は多かれ少なかれ意思決定の障害を有する。今回のテーマである“報酬とは”と考えたときに、薬物依存やギャンブル依存などが最初に思いつく。しかし、今スクールでは、精神医学の最大の謎であり、課題である統合失調症という病気を考えてみたい。その病態や治療にドーパミンが関わるのは間違いない事であるが、これまで得られた強化学習や報酬に関するドーパミンの基礎的な知見から複雑で多彩な症状を呈する統合失調症の本質に迫れるのか一緒に考えたい。
9:00 - 10:00 基礎講義
10:00-12:00 グループ討論
12:00-13:00 昼食
13:00-13:30 グループ発表
13:30-14:00 発展講義
我々は何かの目的をもって学習をするが、その目的を直接的もしくは間接的に定めるものが”報酬(損失)”である。本講義では、数理的に報酬と学習の関係を紐解き、代表的な学習アルゴリズムを紹介する。はじめに、報酬の役割を明確にし、学習が最適化問題として定式化されることをみる。学習問題が定式化されれば、あとは解くだけだが、報酬のタイプや対象とする環境やシステムの性質、それらに関する事前知識により、その解法は大きく異なる。例えば、環境と学習者が相互作用し、かつその相互作用の影響が未知の場合は、強化学習問題となる。最後に、近年の学習理論の展開として、リスク考慮や意思決定則の時間整合性について議論したい。
15:00-16:00 基礎講義
16:00-18:00 グループ討論
18:00-19:00 夕食
19:00-19:30 グループ発表
19:30-20:00 発展講義
21:00-24:00 ポスターセッション
従来、報酬価値を一意に定まるスカラー量として捉えることが標準であ る。しかし、採餌生態の枠組みから見ると、餌の量、遅延(近さ)、消費コスト(エ フォート)など、採餌決定を支配する価値と決定過程は、多元的であると考える事が 妥当である。この講義では、動物が示す一連の採餌行動に着目し、多元性を示唆する 根拠を提示する。複数の決定者が「舵を奪い合う」過程・機構について、参加者の考 察を求めたい。
8:30 - 9:30 基礎講義
9:30 - 11:30 グループ討論
11:30-12:30 昼食
12:30-13:00 グループ発表
13:00-13:30 発展講義
行動研究は、強化や弱化(報酬や罰)の機能についての長い歴史を持っている。効果の法則、場面間転移性、強化スケジュール、マッチングの法則、反応遮断化理論、強化最大化理論などの果たした役割を再評価するとともに、他領域での研究との有効な接点をどのように形成していくかについて考える。
14:00-15:30 基礎講義
15:40-17:00 発展講義