簡潔データ構造第2.5回: ビットベクトルに対する簡潔データ構造 (select編)

こんにちは。レトリバのリサーチャーの木村@big_wingです。 前回の2回目の記事ではビットベクトルに対するrank演算を実現する簡潔データ構造を紹介しましたが、今回はselect演算を実現する簡潔データ構造を紹介します。 1回目の記事はこちらです。 2回目の記事はこちらです。

簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本岡野原氏の本があります。

続きを読む

BERTを利用した日本語文書要約をやってみた

こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップを行っております。

今回の記事では、以前作成した日本語wikiHow要約データに対して、BERTを用いて抽出型、抽象型要約を行った話をします。

続きを読む

検索の評価指標

こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

皆さんは、検索エンジンの評価をどのように行なっていますか?検索エンジンの評価は、実はユーザが求めていることによって変わってきます。今回は、ユーザが求めていること=ユーザモデルと検索評価指標の関係について、書いていきます。なお、以下の内容は酒井先生の書籍に記載されておりますので、詳細が気になる方は、こちらも読んでみてください。

続きを読む

音声認識エンジンの深層学習フレームワークをChainerからPyTorchに移行しました

音声認識チームのソフトウェアエンジニアの西岡 @ysk24ok です。

弊社では音声認識エンジンを開発しており、これまでChainerを使って音声認識モデルの訓練・精度評価をおこなってきましたが、Chainer v7を最後に開発がストップすることが発表されたため、今回ChainerからPyTorchへの移行をおこないました。

本記事では、移行にあたってぶつかった問題や工夫した点について紹介します。

  • 音声認識エンジンのシステム構成
  • PyTorch移行にあたってぶつかった問題
    • 問題1: LSTMが受け取る入力の仕様の違い
    • 問題2: PyTorchではモデルをhdf5形式で保存できない
    • 問題3: LSTMのパラメータの持ち方がChainerとPyTorchで異なる
  • まとめ
続きを読む

簡潔データ構造第2回: ビットベクトルに対する簡潔データ構造

こんにちは。レトリバのリサーチャーの木村@big_wingです。COVID-19の影響でテレワークが推進されていますが、現在私も奈良県生駒市からフルリモートで業務を行っています。 今回は簡潔データ構造について2回目の記事で、あらゆる簡潔データ構造の基本となるビットベクトルに対する簡潔データ構造を紹介します。 1回目の記事はこちらです。

簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本岡野原氏の本があります。

続きを読む

MLFlowと他ツールの組み合わせ

こんにちは。カスタマーサクセス部 リサーチャーの坂田です。
レトリバでは、固有表現抽出、分類、PoC用ツール作成に取り組んでいます。
PoC用ツール作成は、研究成果をより迅速にPoCで試せることを狙いとしています。 実験結果の可視化UIが充実しているMLFlow を中心に、足りないところを補うため、その他のツールとの組み合わせについて考えていきます。

続きを読む