MICSUS2.1MICSUSの構成MICSUSの構成を図3に示す。ユーザは対話端末に対して、音声発話や首振りなどのジェスチャーを行うことで対話を進めることができる。音声と映像は対話端末のマイクとカメラによってそれぞれ取得され、リアルタイムにUIサーバに送られる。UIサーバ上では、感情認識エンジンが動作しており、映像及び音声からユーザの感情が推定される*4。ユーザの音声はUIサーバから音声認識エンジンに送られ、認識されたテキストが対話制御モジュールに送られる。対話制御モジュールは、XML形式で記述された対話シナリオに従い、ユーザの音声発話等をユーザ発話意味解釈モジュールで解釈した結果を使いつつ、対話を展開する。対話シナリオは2.3で詳述するとおり、対話シナリオオーサリングツールを用いて作成することができ、さらに対話シナリオ自動拡張モジュールによって自動的に拡張される。この拡張の必要性、内容等についても2.3で述べる。MICSUSの大きな特徴の1つは、(1)目的志向対話と (2)雑談対話という2種類の対話をハイブリッドに実行できることである。(1)の目的志向対話は、対話シナリオに従って、ユーザに健康や生活習慣などの質問を行い、それに対するユーザ発話を解釈することで、ユーザの情報を取得する対話である。目的志向対話は、図3にある対話制御モジュールが制御を行い、ユーザ発話の意味解釈はユーザ発話意味解釈モジュールが深層学習技術を用いて行う。(2)の雑談対話は、ユーザ発話の解釈結果に応じて展開される雑談である。雑談的応答は、Web上の情報を元にした雑談応答生成モジュールであるWEKDAによって生成されるものと、Webニュースを元に雑談応答を生成するKACTUSによるものの2種類がある。KACTUSは対話シナリオで指定されたタイミングで雑談的応答を行うが、WEKDAによる雑談的応答は、雑談のトピックとなり得る単語がユーザの発話に含まれているとユーザ発話意味解釈モジュールが判断すれば、目的志向対話の途中であってもほぼ任意のタイミングで開始され、また、高齢者が雑談的応答に興味を示さなかった等のタイミングで、健康や生活習慣を尋ねる目的志向対話に復帰する。その意味で2種類の対話の間の行き来はシームレスに行われることになる。対話の結果得られる対話履歴、高齢者の動画像、回答の要約結果(介護モニタリングの報告書に相当)などはデータベースに登録され、図4のような対話結果確認・修正Webアプリを使ってスマートフォン等で閲覧できる。ケアマネジャーなどの介護関係者はそれに基づいて介護プラン等を立案することできるほか、ユーザ発話意味解釈モジュールが高齢者の発話を誤って解釈したことを発見した場合には、簡単な操作で素早く修正することができる。また、今のところ実装はされていないが、介護事業者等が運用している介護関2※ システム発話及びユーザ発話はテキスト図3 MICSUSの構成図*4感情推定はNECソリューションイノベータ株式会社が開発した技術であるため、本稿では詳細は割愛する。1433-5 高齢者介護支援用マルチモーダル音声対話システムMICSUS
元のページ ../index.html#149