音響学会2022年春季研究発表会に参加しました

こんにちは。リサーチャーの古谷(@kk_fry_)です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。3/9~11にオンラインで開催された日本音響学会2022年春季研究発表会にも参加しました。

今回の記事では、気になった発表をいくつかピックアップして紹介します。

各項目に講演番号を記載しているので、しばらくの間、研究発表会のページで公開されている講演要旨を確認することができます。

音響学会の概要

音響学会では、音響、音声、聴覚、超音波などの音に関する様々な研究が発表されます。レトリバでは音声認識技術の研究開発を行っていますが、その他の分野にも興味深い発表がたくさんありました。特に最近は音声合成の製品がたくさん開発されているということもあって、音声合成のセッションが盛り上がっていたように思います。

新型コロナウイルス感染症の影響でここ数回はオンライン開催となっていますが、ポータルサイトが用意されていたり Moodle と連携して資料やデモ音声にアクセスできたりと、オンライン環境がとても良く整備されていました。

今回は、音声認識やダイアライゼーションの分野の発表から気になったものを紹介します。

1-3-2 Momentum Pseudo-Labelingによる半教師ありEnd-to-End音声認識

音声・テキストペアデータの他に音声のみのデータが存在するときに、疑似ラベルを用いて音声のみのデータを活用する手法です。

既存手法の Iterative Pseudo Labeling はモデルの学習をしながら一定の間隔で疑似ラベルの更新を行うものですが、その間隔の調整が必要であったり、学習フェーズ中は疑似ラベルが固定であるという問題があります。

提案手法では、学習モデルの指数移動平均をとったモデルを疑似ラベル生成用のモデルとし、常に疑似ラベル生成用モデルで生成したラベルで学習するというものです。学習モデルの初期値はラベルありデータで学習したモデルです。

これにより、上記の課題を解決しつつ、精度改善を達成しています。

計算リソースにも限りがあるので、探索すべきハイパーパラメータが減るという点でも魅力的に感じます。

2-3-6 粒度の異なるサブワード単位に基づく階層的条件付きEnd-to-End音声認識

CTC音声認識において、中間層の出力を用いてCTC損失を計算するInter CTCと呼ばれる手法が存在し、最終層のみで損失を計算するよりも精度が上がるという報告があります。

この提案手法では、中間層の出力を用いてターゲットテキストとのCTC損失を計算するのではなく、浅い層ほど少ない語彙数のサブワードとのCTC損失を計算するというものです。これは、音素→文字→単語のような、徐々に複雑な表現へと変換していく方法に着想を得たものです。

ニューラルネットワーク自体の、出力に近いほど抽象度が高い表現を獲得しやすいという特性に合った手法と言えそうです。

実際、Inter CTCなどの他のCTC応用手法と比較して低い単語エラー率が達成されています。

日本語に適用する場合、音素→文字→単語というような粒度にするか、文字を最小単位としてサブワード分割を行うか、どちらが適しているのかは分かりませんが、実験してみる価値はありそうですね。また、Inter CTCと比べて、中間層での損失の計算量が下がるのも嬉しいですね。

1-3-13 グローバルアトラクタとローカルアトラクタに基づく話者数無制限ニューラルダイアライゼーション

話者ダイアライゼーションとは、複数話者が発話する音声について、各時点で誰が発話しているかを識別する技術です。

EEND-EDAという手法では、話者数無制限でダイアライゼーションができますが、実際には学習に用いた話者数よりも多い話者が発話する音声での精度が悪くなるという問題がありました。

そこで、提案手法では音声を短い区間に分割し、それぞれの区間の中でダイアライゼーションを実行し、その後に異なる区間に存在する話者の一致を判断します。

また、話者数が学習データよりも少ない場合はEEND-EDAの精度が高くなるため、両方の手法を併用する方法も提案されており、話者数が少ない場合と多い場合の両方で高いダイアライゼーションを達成しています。

会議音声などを対象とする場合、話者数に上限が設けられないことが多いので、学習時よりも多い話者での精度が上がるのは良いですね。

おわりに

今回の音響学会では、上記の他にも音声認識関連の興味深い発表がたくさんありましたが、音声合成の盛り上がりも興味深かったです。

音声合成用のデータセット作成に関して、読みやすやと性能のトレードオフやライセンス関連の問題に関する議論があり、勉強になりました。

研究成果の発表も関連する議論も興味深く、有意義な3日間となりました。