再訪: 極大部分文字列

こんにちは。レトリバのリサーチャーの木村@big_wingです。

今回は業務で久しぶりに触れる機会があったこともあり、極大部分文字列について紹介したいと思います。 極大部分文字列については、有志の方のブログやスライドが公開されています。私も今回久しぶりに極大部分文字列に触れるにあたってこれらの資料は大変参考になりました、ありがとうございます。特にshiba_yu36氏のブログに極大部分文字列の元論文と各種資料へのリンクがまとまっています。

blog.shibayu36.org

続きを読む

ラベルなしデータだけでも高い精度で文法誤り訂正ができるLM-Criticの紹介

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事では、LM-Critic: Language Models for Unsupervised Grammatical Error Correction.を紹介します。 この論文では、提案手法を用いることで、ラベルなしデータだけで文法誤り訂正が高い精度で達成できることが報告されています。

続きを読む

音響学会2021年秋季研究発表会に参加しました

こんにちは。リサーチャーの古谷(@kk_fry_)です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。9/7~9にオンラインで開催された日本音響学会2021年秋季研究発表会にも参加しました。

今回の記事では、気になった発表をいくつかピックアップして紹介しようと思います。

各項目に講演番号を記載しているので、研究発表会のページで公開されている講演要旨を確認することができます。

続きを読む

ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...!

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事では、先日開催された自然言語処理のトップカンファレンスである、ACL-IJCNLP2021でBest Paperとなった、VOLT(VOcabulary Learning approach via optimal Transport)を日本語文書分類で試してみた話をします。

続きを読む

DeepSpeedの紹介

Chief Research Officerの西鳥羽 (Jiro Nishitoba (@jnishi) | Twitter) です。
前回のブログでBigBirdを触ってみたを予告してましたが、BigBirdのような巨大なモデルを学習するために有用なライブラリがあったので、先にそちらを紹介したいと思います。
皆様は最近のモデルをみて、「お、いいな」と思うものの学習環境で16GPUとか64GPUなどの記述を見つけてしまい、遠い目をしながらそっ閉じした経験などありませんでしょうか。
今回紹介するDeepSpeed というライブラリは、物理メモリや外部SSDなどを活用してより大きなモデルを学習できるようにするものです。
実際GPUメモリ24GBのGeForce TitanRTX 2台でbaseサイズのBERTがほぼ同等の条件で学習できます。

続きを読む