kerneltyu’s tech blog

理系学生です.

【論文】Human Feedback as Action Assignment in Interactive Reinforcement Learning

こんにちは、ご無沙汰です。今回は読んだ論文の内容のまとめをここに記録しようと思います。自分は強化学習に対して人の知識を転移するというような研究をしていて、Human-friendlyな転移方法は何か?ということに興味を持っています。自分用のメモのように記述しているので、なんのこっちゃ分からないかも知れませんが、ご容赦ください。スキムした程度で、全体像をぼんやり掴んだという状態で書いてます。

論文情報

ジャーナル論文です。2020年、ACM Transactions on Autonomous and Adaptive Systemsで掲載されています。University of Technology Sydneyの人たちで、Syed Ali RazaさんとMary-Anne Williamsさんの2人。自分は初めて見た人たち。

要約

Interactive Reinforcement Learningの枠組みで人がエージェントの状態-行動を見て評価する方法と人が現在の状態を観測して、好ましい行動を選択する方法をSokobanドメインで比較したところ、後者の方が人が教示しやすかったという内容。ベースはReward Shapingで、どちらも報酬値としてエージェントに人の知識を伝播させる。与え方が異なるだけ。

方法

Shaping from Reward Assignment

人が与えた報酬を環境から生成される報酬地に足し合わせる方法。人が与える報酬は4段階や7段階で離散的に与える。

Shaping from Action Assignment

人が与えた行動を報酬値に変換し、環境報酬に足し合わせる方法。人は状態を見て、行動を与える。


\pi^h_t(s) = a_b

人が与えた行動を上記で記述すると、生成する報酬関数は下記のように記述する。


H^d(s,a,s') = \Omega(\pi^h_t(s), \pi_t(s))

人が選択した行動とエージェントが選択した行動を比較する関数\Omegaを通した結果を報酬値とする。関数\Omegaは、具体的に書くと、


H^d(s,a,s') = \left\{ \begin{array}{l}
1&\mbox{if } \pi_t^h(s) = \pi_t(s) \\
-1&\mbox{otherwise.}
\end{array} \right.

エージェントが選択した行動と人が選択した行動が一致すれば正の報酬、一致しなければ負の報酬という関数。

感想

人が自分で行動を選択する方がエージェントの状態行動を観測して評価するのより、与えやすいというのは直感通りな結果。状態行動を観測して評価を与えるという枠組みだと、自分にとって好ましい行動を選択するまで観測をしないといけない。それだったら、自分で直接やってしまうよとなるのは自然な気もする。けど、これって人が簡単に行動を伝えれる場合っていう前提がある気がする。人にとって操作が難しいようなドメインの場合では成り立たない。Sokobanでの検証しかなくて、Sokobanはこの前提が成り立つドメイン。実験の組み立てや評価の仕方などは参考にできるところが多いので、これからじっくり読んでいこう。

追加調査

  1. HRIの評価方法であるNARSやGodsped questionnaire、RoSAS
  2. novelty effectについて
  3. Natural instructions to obtain rewards from a human分野
  4. Newtonian Action Advice & Bayesian Q-learning