90■概要世界中に一気にリモート会議が普及した新しい環境の中で、自動化された逐次通訳が上市され利用の増大が期待されている。自動逐次通訳には克服すべき大きな課題がある。それは、逐次通訳を介したコミュニケーションの効率の悪さ、すなわち、相手に話が伝わるまでに話す時間と通訳する時間を合わせた倍の時間を要することである。本研究室では自動同時通訳の実用化を実現するため以下を進めている。①低遅延の自動同時通訳を実現するための入力発話の分割点検出技術、要約等外部処理と翻訳との融合を行う技術の確立、②様々な分野における多言語の情報を日本語のみで受発信可能とする翻訳技術の確立、③対訳データ依存性を最小化する技術の確立、④一文を越えた情報(文脈、話者の意図、周囲の状況等)を利用して翻訳精度を高める技術の確立、⑤自動同時通訳の評価技術の確立を目指す。また、社会実装を着実に進めるため、⑥多様な分野でも利用可能な多言語自動翻訳の実現に向けた翻訳バンクによる大規模な対訳の構築、⑦旅行、医療、防災等を含む日常会話の翻訳品質の実用レベルへの強化が必要な重点言語を含めた対訳コーパスの構築を図る。並行して、自動同時通訳技術の要素技術の公開や社会実装も実施している。本研究の一部は、総務省施策GCP2025*1で公募された委託「多言語翻訳技術の高度化に関する研究開発」に採択され実施している。■令和3年度の成果1.同時通訳の低遅延性をコンピュータで実現する「令和2年度末に試作完了した同時通訳にかかわる日英データ(同時通訳コーパス)」に含まれる人手分割から、同時通訳のチャンク(文より短い翻訳単位)を深層学習*2した分割モデルに従って翻訳するアルゴリズムを開発しプログラムとして実装した(図1)。日英の実験では、入力の平均単語数はおよそ20で、文分割、チャンク分割の平均単語数はそれぞれおよそ12、7であり、遅延がそれぞれおよそ8、13(語)少なくなることを確認した。遅延を縮小するために行うチャンク分割では翻訳への情報入力が文全体に比べて欠落するので必然的な副作用として翻訳精度BLEUは約1割劣化する。文末において再度入力をまとめた文で機械翻訳を実施して翻訳精度の劣化を補償する手法を創出した(世界初:特願2021-27112)。前記の同時通訳コーパスについて日英を増量し多言語化(中韓越)に着手した(2021年度に構築した分は2022年度において研究開発に用いる)。2.収集した対訳データと活用アルゴリズムの改良で多言語化を進める対訳データに翻訳方向(翻訳のSOURCE側言語とTARGET側言語の組)を表すタグを付加して、モデルを学習する手法を創出した。1個のモデルで全翻訳方向を扱えることから、ユニバーサル・モデルと呼ぶことにする。30言語に対して全言語対をカバーするユニバーサル・モデルを試作、評価し、大多数の翻訳方向で従来手法を上回る精度(BLEU)を確認できた。870 (30*29)個のモデルの総体が1個のユニバーサル・モデルで置換可能となり、30言語間の全方向翻訳を個別モデルによる実装に比べて1/870の省スペースで実現することが可能となり、社会実装時のリソース・コストの大幅な削減を実現できる。令和3年11月末に試用アプリであるVoiceTra*3に搭載し、運用評価を開始した(パッケージングして令和4年5月に技術移転開始予定)。3.収集した対訳データと活用アルゴリズムの改良で多分野化を進める現在の自動翻訳では、表1に例示したように、SNSに見られる崩れたテキスト、例えば(a)は (b)のような不適切な翻訳をする。これはSNSの対訳データが少量しか存在しないことから来る問題である。本研究室では、対訳データ依存性を最小化する技術を研究しており、単図1 チャンクと文の2種類の区切り表1 SNSの翻訳(a)入力#COVID19 in NYC, plz dont go out and stay @home!!!(b)従来MTの出力#NYCのCOVID19、PLZは外出せず@home!(c)提案法の出力#COVID19 NYC, 外出しない,家にいてください!!!3.4.1.2先進的翻訳技術研究室室長 隅田 英一郎ほか19名自動翻訳技術の研究・開発と多言語・多分野での社会実装
元のページ ../index.html#98