音響学会2021年秋季研究発表会に参加しました

こんにちは。リサーチャーの古谷(@kk_fry_)です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。9/7~9にオンラインで開催された日本音響学会2021年秋季研究発表会にも参加しました。

今回の記事では、気になった発表をいくつかピックアップして紹介しようと思います。

各項目に講演番号を記載しているので、研究発表会のページで公開されている講演要旨を確認することができます。

音響学会の概要

音響学会では、音響、音声、聴覚、超音波などの音に関する様々な研究が発表されます。レトリバでは音声認識技術の研究開発を行っていますが、その他の分野にも興味深い発表がたくさんありました。

新型コロナウイルス感染症の影響でここ数回はオンライン開催となっていますが、ポータルサイトが用意されていたり Moodle と連携して資料やデモ音声にアクセスできたりと、オンライン環境がとても良く整備されていました。

緊急事態宣言下なので私も自宅から参加しました。

今回は、音声認識分野の発表から気になったものを 4 本紹介します。

1-3-3 言い淀みを考慮した自由発話のEnd-to-End音声認識

朗読発話ではなく自由発話の場合、「これは き 昨日の」などの言い淀みが発生します。言い淀みは、存在しない単語の発話になりますし、認識結果に残っても邪魔になります。そのため、言い淀みを特別扱いする音声認識が研究されています。

この研究の手法では、訓練データに含まれるすべての言い淀みに対して同一のラベル(ここでは '@')を割り当てます。上の例であれば「これは @ 昨日の」となります。 このようなデータセットで学習した結果、精度良く言い淀みを推定することができたようです。また、推論結果から言い淀みラベルを削除することで品質の高い認識結果テキストを出力することができたようです。

音声認識で議事録等を作成する場合、認識結果からフィラーや言い淀みを除去することが要求されるので、実用的で興味深い研究だと思いました。このようなシンプルな処理でうまく動いてくれるなら嬉しいですね。

2-3-9 BERT による CTC 音声認識への知識蒸留

音声認識において、言語モデルを音響モデルに組み合わせる方法には Shallow Fusion やリスコアリングがありますが、知識蒸留法という手法が近年注目されているそうです。これは、言語モデルによる単語出力確率を teacher とし、音響モデルの出力確率を student として学習するという手法です。 知識蒸留法は RNN transducer のように単語単位(や文字単位など)で出力する手法には適用できますが、CTC 音声認識のような音声フレーム単位で出力するものにはそのまま適用できません。

そこで、音声フレームと出力単語との対応を、最も尤度が高いものにする強制アラインメントで決めて、BERT の予測分布と CTC の予測分布の KL ダイバージェンスを最小化するという方法で知識蒸留法を適用するのがこの手法です。 これにより、言語モデル無しよりも精度が向上することが確認されました。また、知識蒸留法に加えて Shallow Fusion やリスコアリングを用いるとさらに精度が向上するようです。

知識蒸留法では推論時に言語モデルの計算を行わないため、CTC の推論速度を維持したまま言語資源を活用して精度を向上できるのが良いですね。

1-3-1 Encoder-Decoder 音声認識モデルにおける暗黙的言語情報の置換法

音声認識において、音声・テキストペアデータと言語のみのデータを組み合わせる方法として、 Density Ratio Approach(DRA)というものが提案されています。これは、ペアデータの言語情報と言語のみのデータの言語情報の性質が異なっている場合に、ペアデータの言語情報によるスコアを減算することで言語のみデータのドメインに適応するという手法です。

この手法を日本語のデータに適用した事例がまだ無いため、日本語話し言葉コーパス(CSJ)を用いて日本語での有効性を検証したのがこの研究です。

実験の結果、学習時と評価時のドメインが学術講演と模擬講演で異なる場合に、DRA により精度が向上することが示されました。

DRA は言語資源の活用法として注目されているので、日本語での有効性が示されたのはありがたいです。

1-3-4 CTC を用いた音声認識のための中間層予測による条件づけ

CTC 音声認識の精度改善手法として、Encoder の途中の層でも出力を計算して CTC Loss を計算するという InterCTC という手法があります。これにより、学習の初期段階から入力側の層でも学習に有効な勾配が得られる、というものです。推論時には、途中の層からの出力は利用せず、最後の層の出力のみを利用します。

この研究では、InterCTC のシンプルな拡張として、推論時にも中間層からの出力を利用します。具体的には、途中の層からの出力(softmax を経由した出力ラベルの確率分布)を、さらに Linear 層に通して中間特徴量と同じ次元に戻し、中間層の出力に加算して次の層に入力します。

ただし、パラメータの増加を抑えるために、中間層からの出力と再入力のための 2 つの Linear 層は、すべての中間層で重みを共有します。

また、これを適用する中間層はすべてではなく、合計 5 層になるようにほぼ等間隔に選びます(使う層の数は変更可能なパラメータです)。 この手法により、CTC から推論速度をほとんど落とさずに、Transformer を用いたモデルに匹敵する精度を達成することができたようです。拡張元の InterCTC よりも精度が向上しています。

この研究では日本語での評価が行われていませんが、CTC の速度と Transformer 並の精度をある程度両立できるのは素晴らしいですね。日本語での結果も気になるところです。

おわりに

今回の音響学会では、Transformer 系のモデルを用いた音声認識よりも、RNN-T や CTC を用いた音声認識に関する研究が多いように感じました。ストリーミング性や推論速度などのメリットを維持しつつ、Transformer 系のモデルの精度をどれだけ導入できるか、というようなものが興味深かったです。

ふだん論文を調べているときに、RNN-T の注目度が上がっていることを感じていましたが、CTC も注目度が復活してきているのは面白いですね。

トレンドの変化も感じることができ、今回も非常に有意義な 3 日間となりました。