こんにちは。製品企画部リサーチャーの古谷(@kk_fry_)です。
レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。9/9~11にオンラインで開催された日本音響学会2020年秋季研究発表会にも参加しました。
音響学会参加
音響学会では、音響、音声、聴覚、超音波などの音に関する様々な研究が発表されます。レトリバでは音声認識技術の研究開発を行っていますが、その他にも興味深い発表がたくさんありました。
新型コロナウイルス感染症の影響で今回はオンライン開催となりましたが、ポータルサイトが用意されていたり Moodle と連携して資料やデモ音声にアクセスできたりと、オンライン環境がとても良く整備されていました。
レトリバでは現在もリモート勤務が推奨されているため、私も自宅からの参加となりました。
個別の発表の紹介
論文集の CD-ROM によると、今回の発表件数は口頭発表とポスター発表をあわせて約 390 件とのことです。 Transformer 等の Attention 機構を用いた研究が多かった印象です。また、位相情報や生の波形を扱う研究も多いようでした。
私が聴講した発表のうち、特に興味深かったものをいくつか紹介します。
講演要旨の PDF 資料にはこちらのページからアクセスできます → https://acoustics.jp/annualmeeting/
大規模な外部言語資源と発音辞書を用いたEnd-to-End音声認識の事前学習の検討
音声認識の学習において必要となる音声とテキストのペアデータは大量に集めるのが困難です。しかし、ペアデータが少ないと認識できる語彙が少なくなり精度が低くなるという問題があります。 そこで、Web 上をクロールすることで容易に収集できるテキストのみのデータを用いることでペアデータに含まれない語彙の認識を可能とするのがこちらの研究です。 発音辞書を用いてテキストのみのデータから音素列を作成し、音素・書記素変換の学習をしたデコーダを音声認識に流用するという手法で、テキストデータの量を増やすほど精度が向上したことを報告しています。発表では、ペアデータに含まれない語彙について認識できた例などが紹介されていました。
ペアデータに含まれない語彙の対策に音素・書記素変換の学習を用いるという発想が興味深いと思いました。
Mask CTC: CTCとマスク推定に基づいた非自己回帰的なEnd-to-End音声認識
Transformer Sequence-to-Sequence モデルによる自己回帰的な音声認識モデルは高精度ですが、デコーダにおいて直前までの出力を推論に利用するため時間がかかるという課題があります。一方で CTC1 等による非自己回帰的な音声認識モデルは高速な推論が可能ですが出力記号間の依存関係を考慮しないため精度が低いという課題があります。 そこで、こちらの研究では Transformer Encoder を用いて CTC に基づく音素列を生成した後、信頼度をもとにマスクをかけ、Transformer Decoder を用いて段階的にマスク推定を適用することで非自己回帰的でありながら出力記号間の依存を考慮した音声認識を行う手法が提案されています。
WSJ データセットを用いた実験により、従来の非自己回帰的なモデルと比べて速度があまり変わらず精度が大きく改善したことが報告されています。
段階的なマスク推定の適用によって依存関係を考慮するという発想が興味深く、勉強になりました。
複素DNNを用いた深層 Griffin-Lim 位相復元
Griffin-Lim 法2 による位相復元は強力な位相復元手法として広く用いられてきましたが、品質の改善には多くの反復が必要であり、反復回数を増やしても必ずしも品質が上がるとは限らないという課題があります。
こちらの研究では、GL 法の「時間と品質のトレードオフが調整可能」という利点を活かしたまま、 DNN を用いた精度改善を行っています。 この手法において反復される各ブロックでは、GL 法の 2 つの射影(振幅の変更と ISTFT→STFT)を含み、その出力からのノイズ除去を DNN で学習します。これにより、位相復元特有の学習の困難さが解消されています。
GL 法は古い手法ですがなかなかその代替が生まれてこなかったため、ついに位相復元のデファクトスタンダードが更新されるのかとワクワクしています。
音楽重畳音声認識のための時間領域音源分離とsequence-to-sequence音声認識の同時学習
BGM が重畳された音声の音声認識のために、音源分離と音声認識を同時に学習する手法を提案する研究です。 音源分離を時間領域で行う Conv-TasNet3 という手法を採用し、周波数領域での分離よりも高精度であることが報告されています。また、音声認識と音源分離を同時に学習することで認識精度が改善すること、混合音声を学習に用いることで認識精度が改善することが報告されています。ただし、分離性能の悪い周波数領域音源分離を用いると、混合音声を用いた学習で認識精度が低下するとのことです。
発表では学習データとは性質の異なるポップス音楽の分離の例も示されており、音源分離と音声認識の同時学習に関する分析が興味深かったです。
終わりに
今回の音響学会はオンライン開催となりましたが、Web 上の環境が整備されていて非常に便利なのが良い点でした。現地開催ならではの交流はありませんでしたが、ハッシュタグ付きツイートで発表について言及すると発表者の方からメンションがあり、SNS 上での交流が楽しかったです。 ちなみに「ASJ」は日本音響学会と日本天文学会に共通する略称で、どちらも同じ日に研究発表会があったらしく、「ASJ」でツイート検索すると話題が混ざるという出来事も楽しかったです。
音響学会に参加することで最近の音声処理のトレンドも把握することができ、興味深い発表をたくさん聞くこともできたので、非常に良い 3 日間となりました。
弊社研究グループでは自社製品の研究開発を行うだけではなく、積極的な学術コミュニティへの参加を推奨しています。
-
Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).↩
-
Griffin, D., & Lim, J. (1984). Signal estimation from modified short-time Fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2), 236-243.↩
-
Luo, Y., & Mesgarani, N. (2019). Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation. IEEE/ACM transactions on audio, speech, and language processing, 27(8), 1256-1266.↩