図4 MAB問題とデータ照会の比較果から自身の持つデータと照らし合わせることで相手が保持するデータ内容と一致しているかを判断する。ロボットはクラウドからのデータ配信やセンサで周囲の環境データを取得することで、データ更新が発生する場合がある。これはすなわちロボットが保持するデータがある確率で変更され、セグメントごとに更新頻度に偏りが生じる可能性があるということであり、ネットワーク内のデータを同期し最新化するためには照会を行うロボットはこの更新されたデータを見つける必要がある。このデータ照会モデルはMAB問題と一致する。MABアルゴリズムMAB問題は自身が所持するコインを消費しながら複数のスロットマシンをプレイし (アームを引く) 、最大限の報酬 (コイン) を得る問題である。マシンはそれぞれ固定の報酬確率に従って報酬を出し、プレイヤーはその事前情報を知らない。プレイヤーは各マシンをプレイするごとに、マシンの傾向すなわち報酬確率を把握していく。報酬確率の高いマシンを“探索”することとマシンをプレイして報酬を得る“活用”のバランスを決めるアルゴリズムがMABアルゴリズムである。図4はMAB問題とデータ照会の対応を示しており、前章で説明したデータ照会モデルは、問合せを行うロボットが相手ロボットからの照会結果を基に、更新すべきデータを探索するというMAB問題となっている。ここでデータ照会モデルがMAB問題と異なる点は、確率的に行われたデータの更新は次回のデータ照会にも引き継がれるということである。次にMABアルゴリズムであるTOWダイナミクスについて説明する。3.1TOWダイナミクスTOWは式(1)で表される推定報酬 に従った強化学習型のアルゴリズムである。 1 (1)ここで はラウンド までのマシン の累計プレイ回数、 はラウンド までのマシン の累計プレイ回数のうち報酬が出なかった回数、 は重みパラメータを示している。また、式(1)は次のように書き換えられる。 1 (2) ∆1 報酬あり 報酬なし (3)マシン の推定報酬確率は以下で表される。 (4)ここで であり、報酬を受け取った回数を表している。先ほどの重みパラメータ は以下のように設定することが最適であることが分かっている。 2 (5)TOWの意思決定は変位 によって行われ、推定報酬 を用いて以下で表す。 111osc. (6)ここでosc. は重みパラメータである。次回のラウンド1 では、∗argmax1 となるマシン∗ を選択することで、探索と活用の意思決定が行われる。31154-4-3 強化学習を用いた自律型モビリティ利活用データ集配新技術の研究
元のページ ../index.html#119