するなどといった機能を持つ、意味解釈モジュールの開発にあたっては、NICT DIRECTでアノテーション作業を実施して合計約300万件に上る学習データを作成し、大規模ニューラルネットワークであるBERT [4]、もしくはNICT DIRECTで独自に開発したBERTの改良版であるHBERTを用いて学習を行った。BERTには350GBのWebテキストを用いて事前学習を行ったBERTLARGEを用いた(NICT DIRECTで開発した大規模ニューラルネットワークについては、本特集号3-4[6]参照)。ただし、通常のBERTは、仮名漢字混じり文を入力とするため、2つの単語が音声的に似ているという情報を利用することは難しい。このため、ユーザ入力に音声認識エラーがあると性能が大きく落ちる。そこで、通常の仮名漢字混じり文に加えて単語の読み情報も入力するほか、疑似的な音声認識エラーとして学習データにノイズを加えるという工夫を行うことで音声認識エラーに対する頑健性を高めたHBERTというモデルを開発し、合わせて使用している。Yes/No質問に対するユーザの回答を「Yes」「No」「不明」「前提矛盾」等に分類するYes/No質問回答分類(表1参照)については、後述する実証実験時点では、1,730,875件の学習データを用いて学習を行ったモデルを使用した。このモデルの分類性能は、アノテータがテキストベースで作成した評価データでは、平均精度のマクロ平均でBERTでは93.1%、HBERTでは94.3%となった。また、ノイズ(疑似的な音声認識エラー)を加えた評価データでは、BERTでは87.8%、HBERTでは92.9%となった。HBERTは、ノイズを加えた場合にも精度の低下が小さく、BERTに比べて約5%の性能向上を実現できたことがわかる。また、HBERTはノイズなしのデータに対しても性能向上を達成している。なお、データ作成時には、「はい」のような単純な応答は避け、「毎日3食食べていますか?」に対する「胃腸の調子がよくてね」のような、遠回しな表現を積極的に作成するようにしており、そのような分類難易度の高いユーザ発話に対して高い精度で解釈できることがわかる。このモデルは、介護関連の質問だけでなく、Webから取得した分野を問わない一般的な質問を学習データに含めることで、介護に限らない様々な話題について高精度で動作するよう作成している。介護分野以外の評価データでYes/No質問回答分類を評価した結果では、ノイズなしの評価データに対してHBERTで平均精度98.0% を達成した。遠回しな表現を多く含めたかどうか等、データ作成時の方針が異なるため単純な比較はできないが、介護分野以外の質問についても高い性能で動作することがわかる。表2に、Yes/No質問回答分類以外も含めたいくつかの主要なモデルの学習データの規模と性能についてまとめた(性能は2値分類のタスクに関しては正例の平均精度、多値分類のタスクに関しては平均精度のマクロ平均を示している)。いずれも評価データはテキストベースで作成したものであり、実際の音声対話で出現し得る音声認識エラーなどを含まないが、ノイズ(疑似的な音声認識エラー)を加えた評価データを用意して結果を比較できるようにしている(実際の音声対話を対象にした実験結果については次節を参照されたい)。表に掲載したいずれのモデルでも、ノイズありの場合は、HBERTの性能がBERTの性能を上回っていることがわかる。また、HBERTはノイズなしのデータに関してもBERT版と同等かそれ以上の性能を示していることが読み取れる。実証実験社会実装に向けて、実際に高齢者がMICSUSと対話する実証実験を行い、技術的課題の洗い出しとその解決を実施している。実証実験は、高齢者介護施設に入居している高齢者や独居の高齢者などを対象として多数回実施している。本稿では2022年2〜3月に4名の高齢者(独居の70歳代の方3名と80歳代の方1名)の4モデルの種類学習データ件数 (うち人手作成)ノイズなしBERTノイズなしHBERTノイズありBERTノイズありHBERTYes/No質問 回答分類1,730,875 (665,221)93.194.387.892.9自由回答質問 回答有無判定58,522(58,522)98.198.197.097.5内容ベース訂正対象特定182,834 (61,342)95.796.094.595.6雑談開始判定313,825 (139,164)99.099.097.798.8表2 意味解釈モジュールの主要なモデルの学習データの規模及び性能(平均精度 %)1473-5 高齢者介護支援用マルチモーダル音声対話システムMICSUS
元のページ ../index.html#153