HTML5 Webook
46/102

聴覚情報は、自己を取り巻く物理的な環境の理解・認知だけでなく、対人コミュニケーションにおける相手の理解・認知に大きな役割を果たしている。ヒトは、発話の音声情報から言語的意味だけでなく、相手の情動や意図も推定している。これは、同じ言葉が発せられたとしても、発話者の情動・意図によって、ささやき声、力んだ声、息漏れ声など、声質(voice quality)が変化するからである。当研究グループでは、発話の音声情報からこのような声質の微妙な変化を識別するための技術を開発している。音声は、一般に、声帯で発せられた振動音が声道(口腔・鼻腔)で共鳴し口唇から音波として放射されることで生じる。声質は、このプロセスの声道・口唇における共鳴・放射ではなく、声帯における気流(声門流:glottal flow)の変化に起因する。よって、発話情報から声門流をいかに逆推定するかが声質を高精度に判別するための鍵となる。発話情報から声門流を逆推定する手法としては、発話音声から声道共鳴と口唇放射の効果を逆フィルタにより除去する反復適応逆フィルタリング(IAIF)と呼ばれる手法が知られている。当研究グループでは、声門流の推定精度を更に向上させるために、声道における周波数傾斜を補正する高周波数領域増幅の反復最適化処理(IOP)を加えた新しい手法(IOP-IAIF)を提案した[8]。提案手法の効果を検証するために、異なる声質の音声を実際に収音し、声質の識別性能を従来手法と比較した。本実験の結果、新手法では従来手法と比較して、異なる声質に対する識別指数NAQ値の差が広がるとともに、従来手法では算出不能であった弱い息漏れ声のNAQ値も推定可能であることが判明し、声質の識別性能が大きく向上する可能性が示された(図6)。ロボット・AIとヒトの間でより自然なインタラクションを実現するためには、ヒトの発話の言語的意味理解のみならず、声質の分析から相手の情動・意図を読み解く技術の開発が極めて重要となる。今後、当研究グループでは、上述の声質識別技術を活用して、ヒトの心に寄り添うロボット・AIの実現を目指していきたいと考えている。2.3体性感覚メカニズムの解明と解析技術の活用ヒトの体性感覚には、対象物と皮膚の接触状態を感知する“皮膚感覚”と筋骨格系の状態を感知する“自己固有感覚”が存在する。当研究グループでは、主に手の筋骨格系に力を与える力覚提示装置等を用いて、ヒトの体性感覚メカニズムを探る解析技術を開発してきた。また、視覚、聴覚、触覚、嗅覚の四感覚を統合的に制御して、インタラクティブな体験を可能にする“多図5 腹話術効果に関わる脳活動の解析左:顔映像は正面位置のディスプレイから、音声は±30°の範囲に置かれたスピーカから提示。右:右脳のpSTG(上側頭回後部)の活動。バイノーラル音を提示した場合(binaural A)、音声が正面から横に移動すると反対側脳の活動が高くなるが、正面に映像を同時に提示した場合(binaural AV)は、音声が横に移動してもその活動が抑えられることを示している。図6 異なる声質に対する識別性能息漏れ声、叫び声等、異なる声質に対する識別指数NAQ(Normalized Amplitude Quotient)の値を示している。従来手法(IAIF)と比較して提案手法(IOP-IAIF)では、異なる声質に対するNAQ値の差が広がっており識別が容易になっている。42   情報通信研究機構研究報告 Vol. 64 No. 1 (2018)5 脳機能の理解と知見応用のための各種アプローチ

元のページ  ../index.html#46

このブックを見る