NICT NEWS

音声対話による観光案内アプリケーションAssisTra-自然な音声で簡単に情報を取得できるシステムの実現を目指して- 　ユニバーサルコミュニケーション研究所　音声コミュニケーション研究室専攻研究員　翠輝久／ユニバーサルコミュニケーション研究所　音声コミュニケーション研究室専攻研究員　水上悦雄／　ユニバーサルコミュニケーション研究所　音声コミュニケーション研究室室長　柏岡秀紀／ユニバーサルコミュニケーション研究所　音声コミュニケーション研究室上席研究員　河井恒／ユニバーサルコミュニケーション研究所　企画室研究マネージャー　白土保

はじめに

ユニバーサルコミュニケーション研究所・音声コミュニケーション研究室では、誰でも容易に自然な形で情報システムを利用できる社会の実現を目指して、研究を進めています。私たちは、ユーザの音声による（人に話しかけるような）自然な文による入力を許容し、発話中の意図を理解・推測することにより、適切な情報を提示する高精度対話処理技術を研究しています。これまでの研究成果の実証実験および実データ収集を目的として、観光案内スマートフォンアプリAssisTraを2011年6月にApp Storeからリリースしました。本稿では、AssisTraの3つの機能を簡単に紹介し、主に『はんなのガイド京都編』で利用されている音声対話処理技術について説明します。

AssisTraの３つの機能

・音声対話型観光アプリ『はんなのガイド京都編』

ユーザの自然な音声発話を入力として、システムがユーザの応答に答える音声対話システムです。図1の例のような音声対話をすることができ、ユーザは京都の観光スポットやレストランなど観光に役立つ様々な情報を調べることができます。

・多言語観光案内アプリ『KyoTra』

観光に便利なテキスト情報を4ヶ国語（日英中韓）で提供します。京都の主な観光スポットの検索・表示、および現在地近郊の観光スポット（約2,900件）の表示や現在地からのルートを表示できます。

・旅行記録アプリ『TraMemo』

電子地図上の位置に紐づけて写真・音声メモ・テキストメモを記録する機能です。

図1●『はんなのガイド京都編』対話例
図1●『はんなのガイド京都編』対話例

音声対話処理技術

一般に音声対話システムは、図2のような構成をしており、大きく分けて、音声認識、音声言語理解、対話制御、言語生成、音声合成の5つのモジュールで構成されます。『はんなのガイド京都編』に用いられているモジュールで使用しているモデルは、すべて当研究室で開発したものです。

音声認識・音声合成は、Hidden Markov Model（HMM）に基づく統計的手法を利用しています。後述の大量の観光案内対話データを利用して観光案内用に特化したモデルを作成することにより、高い音声認識率と、ユーザに話しかけるような自然な合成音声を実現しています。さらに、応答文生成で利用するテキストとして、プロのガイドの発話内容をもとに、桜、紅葉など様々な観点からの観光スポットの説明文を整備しました。

以下では『はんなのガイド京都編』に用いられている音声言語理解および対話制御の技術について概説します。

図2●音声対話システム構成図

・音声言語理解

人間の自然発話には、ユーザや状況によって様々な言い回しが存在します。たとえば、「観光スポットへのバスを利用したアクセス方法」が知りたいと考えている場合を考えますと、図3の例をはじめとして、多種多様な言い回しが存在します。このような発話の意図を解釈することは人にとっては難しいことではありませんが、コンピュータがこれらの発話を理解するためには、これらの表現を同一のシンボルに変換する必要があります。これが音声言語理解の役割です。

この機能を実現するためには、ユーザが実際に使用する表現を収集するとともに、高精度な音声言語理解アルゴリズムを研究・開発することが重要になります。会話の中で実際に利用される言い回しを収集するために、私たちはプロの観光ガイドと疑似旅行者の発話を150時間300対話収録しました。これは、現在収集されている単一状況での音声対話データとしては世界的にも大規模なものです。さらに、プロトタイプ音声対話システムを構築して、被験者実験を行い、実際のシステム利用を想定した状況での発話表現を収集しました。これらのデータをもとに、私たちの研究室で独自に開発した音声言語理解・対話制御フレームワークであるWeighted Finite-State Transducer-based Dialog Manager （WFSTDM）を用いてWFST表現による音声言語理解モデルを作成することで、高速かつ高精度な音声言語理解を実現しています。

図3●言語音声理解の例

・対話制御

まったく同じ発話が入力された場合でも、状況や発話履歴に応じて発話に含まれるユーザの意図が異なる場合があります。たとえば、「アクセス方法を教えて」という入力があった場合には、直前の対話内容に基づいて「どこから、どこまで、どのような交通手段で」などの情報を補完する必要があります。これらの発話に隠れた意図を適切に補って応答内容を決めることが対話処理の役割です。

このような対話履歴処理は、対話システムが利用される状況や、ユーザがシステムを使う目的に対する依存性が高いものです。そこで、ユーザの実際の利用状況に近い、前述の大規模対話データをもとに観光対話用の履歴処理モデルを作成し、対話履歴を適切に処理しています。

おわりに

今回アプリを公開し、収集されたログデータを分析していますが、システムの応答の精度はまだ十分ではありません。人間の発話や意図の種類・言い回しのバリエーションが150時間程度の学習データではカバーしきれないほど多様で複雑なものであり、コンピュータが人の意図を正確に理解するためには、より大きな対話データを収集するとともに、音声言語理解や対話履歴処理の精度の改善が必要であることが分かりました。今後はシステム運用により収集した発話データを追加して各モジュールのモデルを再構築するとともに、より柔軟に発話を理解し対話を制御するアルゴリズムの研究を進めていきます。また、システムの利用の拡大を目指して、訪日観光支援に利用できるように『はんなのガイド京都編』を多言語化する予定です。さらに、チケット予約や、コールセンター業務など、実世界で必要とされている様々なタスクを扱う音声対話システムを構築し、対話処理技術の実用性を証明していきたいと考えています。

	翠輝久（みすてるひさ）ユニバーサルコミュニケーション研究所音声コミュニケーション研究室専攻研究員大学院博士課程修了後、2008年よりNICT専攻研究員。音声言語情報処理、特に音声対話システムの研究に従事。2005年から2008年まで日本学術振興会特別研究員（DC1）。
	水上悦雄（みずかみえつお）ユニバーサルコミュニケーション研究所音声コミュニケーション研究室専攻研究員大学院修了後、学習院大学計算機センター助手、ATR音声言語コミュニケーション研究所研究員を経て、2009年NICTに入所。人-システム、人-人の対話評価、コミュニケーションにおける相互調整の研究に従事。博士（理学）。
	柏岡秀紀（かしおかひでき）ユニバーサルコミュニケーション研究所音声コミュニケーション研究室室長大学院修士課程修了後、ATRに入社。2006年からNICTに出向、2010年に採用。音声言語処理、音声翻訳、音声対話などの研究に従事。奈良先端科学技術大学院大学客員准教授。博士（工学）。
	河井恒（かわいひさし）ユニバーサルコミュニケーション研究所音声コミュニケーション研究室上席研究員大学院博士課程修了後、1989年よりKDD研究所（現KDDI研究所）に勤務、音声合成・音声認識の研究開発に従事。その間2000年から2004年までATRに出向し、音声合成の研究開発に従事。2009年からNICTに出向し、音声翻訳技術の研究開発に従事。博士（工学）。
	白土保（しらどたもつ）ユニバーサルコミュニケーション研究所企画室研究マネージャー 1986年、郵政省電波研究所（現NICT）入所。以降、鹿島、平磯、関西、けいはんな、総務省情報通信政策局（当時）などに勤務。現在、ユニバーサルコミュニケーション研究所企画室勤務。博士（工学）。