933●ユニバーサルコミュニケーション分野あることがわかった。これはつまり、反論の理解に評価者の知識が追いついていないとも言え、その点である意味人間を超えつつあるとも解釈できる。社会知コミュニケーション技術の最終目標である対話技術に関しては、膨大なWebページの情報と深層学習を駆使してユーザと雑談をすることができる次世代音声対話システムWEKDA(ウェクダ)や、高齢者介護の負担軽減を狙い、高齢者の健康状態のチェックやWEKDAを用いた雑談も可能なマルチモーダル音声対話システムMICSUS(ミクサス)といった音声対話システムの研究開発に取り組んでいる。特に今年度はMICSUSに関して、高齢者を含む多数のユーザと対話してもらう実証実験を多数回実施し、音声認識誤りが適切な対話進行を妨げる大きな要因であることを確認した。そこで、ユーザ発話の意味解釈で活用するため、従来入力として用いられていた仮名漢字表記に加えてその読みも入力として使う、音声認識誤りに頑健な超大規模言語モデルを開発した。これをMICSUSの実証実験で収集した、YESかNOで回答する質問に対するユーザ発話のデータで音声認識誤りを多数含むものを用いて評価を行ったところ、従来の言語モデルに対して正解率で8.6%(74.7%⇒83.3%)の向上を確認した。さらに音声認識誤りがない入力においても正解率の低下がないことを確認しており、日本語の漢字の読みを活用して、音声認識誤りの影響を抑えて高い精度で意味解釈を行える超大規模言語モデルを世界で初めて実現した。次世代音声対話システムWEKDAに関しては、社会実装上課題となる必要計算リソースを抑えるために軽量化に取り組んだ。WEKDAが雑談を行う際には、Web60億ページの情報に基づいて様々な質問に回答することができる大規模Web情報分析システムWISDOM X(ウィズダムエックス)を多数回用いて、その質問応答の結果から応答を生成している。そのため、ユーザ入力に対し、応答を生成するために大量の計算リソース、計算時間が必要であった。今年度はこうした処理をオフラインで事前に実施し、応答の候補をあらかじめデータベース化し、ユーザ入力が与えられた際には、単純なデータベースアクセスだけで応答が生成できるように改良し、大幅な高速化、省リソース化に成功した。加えて、この新方式に合わせる形で直近のユーザ入力との適合性、過去の対話履歴等から得られたユーザの好み等を同時に勘案してその好みを反映した対話を行う機構も開発した。これは、例えば、ユーザの好みや対話全体から見た際の整合性、システムのポリシー等を考慮した雑談の実現につながる技術であり、社会知コミュニケーション技術における重要な概念である仮想人格の基礎をなす技術である。また、現在一般公開している大規模Web情報分析システムWISDOM Xの軽量化にも取り組んだ。WISDOM Xでは、入力された質問に対しその回答を含む可能性が高いパッセージと呼ぶ複数の文からなる単位を特定するが、それを効率化する方法を新規に研究開発し、軽量化を達成した。検証の結果、従来と同程度の速度、精度を維持したまま、従来の1/40のGPGPUで質問応答を実現できることを確認した。この技術は、WISDOM Xをはじめとする検索エンジンを用いるありとあらゆる質問応答システムに適用可能であり、それらの運用コストを削減し、その普及を加速する技術である。SIP第2期において実施している高齢者介護支援用マルチモーダル音声対話システムMICSUSの研究開発については、上述した音声認識誤りに頑健な言語モデルや、WEKDAの軽量、高速化の成果を取り入れ、意味解釈のための学習データの増強による各種意味解釈の精度向上等を実施し、システムの完成度を高めた。コロナの影響で1名のみであるが、施設在住の高齢者に対し15日間毎日使用してもらう実証実験を問題なく実施し(図2)、音声認識誤りがある中で94.3%というほぼ完璧な精度でYES/NOの意味解釈を行うことに成功した。意味解釈に失敗した最多の要因はそもそも長く複雑であって、人間であっても意味解釈が難しい発話を高齢者が入力したことであった。これらの研究開発により一段とシステムの完成度が高まりさらにより社会実装に近づいた。高齢者介護をターゲットとしたシステムでこうした成果が出ている事例は、我々の知る限り存在せず、共同研究の申し出等が増加するなど求心力が高まっている。以上の研究開発に関し計32件の新聞報道等があった。図2高齢者介護支援用マルチモーダル音声対話システムMICSUSの実証実験の様子3.4.2 データ駆動知能システム研究センター
元のページ ../index.html#101