まえがき音声翻訳は、自動音声認識(ASR)を入力、テキスト音声合成(TTS)を出力として異なる言語を話す人々相互のコミュニケーションを可能とする技術である。多言語化によりこのコミュニケーションの輪は劇的に広がる。これまでに当研究室が手がけた21言語は表1のとおりだが、『話者数』を見ると、新しい言語が加わるごとに五百万人から十四億人が輪に入ってきた勘定になる。一方で、同じ表は世界の言語がおそろしく多様であることも示し、多言語化が簡単な仕事ではないことを教える。幸いなことに、近年の人工知能に基づく音声の処理方法は、原理的には言語に依存しない手法が主流である。しかしながら、これに携わる者が対象言語の知識を一切持たなくて済むかと問われれば、現実的に利用可能なデータの質と量を考えれば、まったくそうではない。この、対象言語に関わる部分への当研究室の取組を、非母語話者の開発者が知っておくべき基礎知識と母語話者でしか担えない役割の両面から述べる。対象言語の諸相新しい対象言語の追加が計画されると表1に行が追加される。多言語音声翻訳に関わるメンバー間での情報共有のためである。項目(列)はメンバーの要求に応じて徐々に増えた。以下に各項目の意図を概説する。『言語名』と『話者数』は最も基本的な情報であり、新たに輪に加わる人口の規模を示す。続く『系統、類型、基本語順』は『正書法の文字』とともに言語間の類似性を示す手がかりであり、これらが一致する言語同士では処理系の共有や軽微な改変でのツールの流用が期待できる。『音素数、声調』は単語の識別に必要な音の要素数を示し、G2P (grapheme-to-phoneme convertor)などの基本的なツールの設計に役立つ。『標準語、方言分布』は主要な方言とその地域分布を示し、音声コーパスを収集すべき地域や範囲の検討に資する。これに続く正書法に関する諸情報はテキスト処理系の選択や設計に資するとともに、テキストデータの自動品質チェックでも使われる。『ラテン文字公式表記法』はラテン文字以外を正書法で使う言語に与えられる情報で、これだけで簡易版のG2Pとして使える場合もあるので含めている。次項目以降は、ASRもしくはTTSの開発側から要求があったものである。『語彙表現の性差』は話者の性別への表現依存性の有無で、TTS用の文生成における語彙選択で考慮しなければならない。『数字の読みの規則性』と『TTSとの親和性』もTTS用の情報である。特に、『数字の読みの規則性』はTTSにとっては古典的な課題であり、これが低い場合はそれなりの覚悟が求められる。たとえば日本語や韓国語は、漢語・固有語の2種類の読み方が混在し、後続する助数詞によっても12本稿執筆時点(2022年11月)でNICT ASTRECにおける自動音声認識(ASR)・テキスト音声合成(TTS)の対象は21言語であった。本稿では、研究開発においてそれら対象言語の全体像を把握するために共有していた表データを掲載するとともに、多言語化を効率的に進めるための研究室の体制について報告する。At the time of this writing (November, 2022), the number of target languages for automatic speech recognition (ASR) and text-to-speech synthesis (TTS) at ASTREC, NICT was 21. This article describes the tabular data that we shared among the lab members to get an overall picture of these target languages, as well as the supporting framework at our lab which efficiently promotes multilin-gualization.2-2-2 対象言語の諸相と多言語化への支援体制2-2-2Aspects of the Target Languages and the Supporting Framework for Multilingualization加藤 宏明KATO Hiroaki152 多言語コミュニケーション技術
元のページ ../index.html#21