特定のドメインのテキストから同義語候補を取り出すために色々検証した話

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事では、特定のドメインのテキストから同義語候補を取り出そうと色々試みた結果をまとめました。

続きを読む

DeepSpeedを用いたHuggingface Transformersの複数ノードでの学習

こんにちは。Chief Research Oficerの西鳥羽です。今回はDeepSpeedを用いてHuggingface Transformersの複数ノードでの学習をする方法を紹介します。

Huggingface Transformersは事前学習済みモデルを簡単に扱うことができるフレームワークです。BERTなどの言語モデルをはじめとして最近はWhisperなどの音声モデル、DETRなどの画像モデルも扱えるようになっています。Huggingface Transformersでは数多くの事前学習済みモデルを用意しているため事前学習を行わなくても用いることは可能ですが、多くのモデルで事前学習にも対応しています。

Huggingface Transformerでは複数GPUが搭載されている単一のサーバーでの学習に対応していて、そちらは特に設定の変更などは無く学習の実行ができます。複数のGPUが搭載された複数のサーバーを用いた学習は、このブログでも紹介したことがある(紹介1 紹介2)DeepSpeedというライブラリを用いると行うことができます。

続きを読む

DeepSpeed Compressionを使ってtask-specific BERTを蒸留してみた

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

ニューラルネットワークモデルの軽量化や推論高速化手法として、蒸留を利用した小さいモデル作成が挙げられます。 今回はtask-specific BERTの蒸留をDeepSpeed Compressionで試してみようと思います。

続きを読む

BERTを用いた教師なし文表現の発展

こんにちは。レトリバの飯田(@HIROKIIIDA7)です。TSUNADE事業部 研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行っています。今回は、教師なしの文表現作成手法DiffCSEを紹介します。なお、日本語のより詳しい資料はこちらにありますので、合わせて参考にしてください。

続きを読む

音声認識の雰囲気を掴もう

こんにちは。リサーチャーの古谷です。

私は普段、音声認識の研究開発をしています。

今回の記事では、音声認識がどのように実現されているのかを、非技術者の方にも伝わるように紹介してみたいと思います。

あまり込み入った話はできないので、スタンダードな教師あり学習に限定して、音声認識の概要を解説してみます。

非技術者の方に伝えることを目指す都合で、かなり説明を端折っている部分があります。この記事を読んだだけでは絶対に実装できるようにならないので、実装レベルの情報が欲しい方はごめんなさい。あくまで「なんとなく音声認識の雰囲気が分かる」というぐらいの読み物としてご覧ください。

また、音声認識の歴史の話はせずに、現在主流の深層学習に限ったお話をします。

続きを読む

深層学習の量子化に入門してみた 〜BERTをIntel Neural CompressorでStatic Quantization〜

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

前々回、Dynamic Quantizationを様々なライブラリで試した記事を公開しました。 前回はStatic QuantizationをONNX Runtimeで試した記事を公開しました。 今回はStatic QuantizationをIntel Neural Compressorで試してみようと思います。

続きを読む

深層学習の量子化に入門してみた 〜BERTをStatic Quantization〜

こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

前々回、深層学習の量子化について簡単な解説記事を公開しました。 前回はDynamic Quantizationを試した記事を公開しました。 今回はStatic Quantizationを実際に試してみようと思います。

続きを読む

簡潔データ構造第3回: 順序木に対する簡潔データ構造 (導入編)

こんにちは。レトリバのリサーチャーの木村@big_wingです。 4月から静岡県浜松市に引っ越しをして、引き続きフルリモートで働いています。 ずいぶん久しぶりになってしまいましたが、今回は簡潔データ構造シリーズの続きで順序木に対する簡潔データ構造について、導入編ということで順序木に対する3つの簡潔表現を紹介したいと思います。

  • 1回目の記事はこちら (簡潔データ構造の概略)
  • 2回目の記事はこちら (ビットベクトルに対するrank演算)
  • 2.5回目の記事はこちら (ビットベクトルに対するselect演算)

簡潔データ構造の書籍としてはNavarro氏の本、日本語で書かれたものとしては定兼氏の本岡野原氏の本があります。また今回紹介する順序木に対する簡潔データ構造を日本語入力に応用したものとして徳永氏の本があります。

続きを読む