音声認識

音響学会2021年秋季研究発表会に参加しました

レトリバのリサーチャーが、先日オンラインで開催された音響学会の研究発表会の参加報告と一部の発表の紹介をします。

CTC 誤差関数を完全に理解したい(前編)

End-to-End音声認識で用いられるCTC誤差関数について解説する記事の前編です。

ESPnet による音声認識入門 ~AN4データセットによる学習・評価~

ESPnetを用いて音声認識の学習と評価を試します。評価結果の見方についても解説します。

微分可能重み付き有限状態トランスデューサーの紹介

微分可能重み付き有限状態トランスデューサー(Differentiable Weighted Finite-State Transducers)の紹介をします。

ESPnet による音声認識入門 ~ESPnet Model Zoo 編~

ESPnet Model Zoo を利用して、学習済みを用いて音声認識をやってみる記事です。

CTC Segmentationの紹介

ESPnet上のCTC Segmentationについて紹介します。

音響学会2020年秋季研究発表会に参加しました

レトリバのリサーチャーが、先日オンラインで開催された音響学会の研究発表会の参加報告と一部の発表の紹介をします。

OpenFST における N-shortest path アルゴリズムの紹介

OpenFSTというライブラリにおけるN-shortest path 探索アルゴリズムを紹介します

とある新入社員の修論解説 〜音素認識〜

レトリバに2020年度入社した社員の修士論文について簡単に解説します。 音声信号処理を用いて発話訓練のための音素認識を行う研究の紹介です。

音声分析ソフトウェアPraatとアノテーションフォーマットTextGrid形式について

今回は、音声分析ソフトウェアのPraatと、Praatで読み込んだり保存できる音声のアノテーションフォーマットTextGrid形式について紹介したいと思います。おまけとして、TextGrid形式のファイルを読み書きするライブラリ [textgrid.hpp](https://github.com/ei…