Retrieva TECH BLOG

音声認識エンジンの深層学習フレームワークをChainerからPyTorchに移行しました

機械学習・深層学習

音声認識チームのソフトウェアエンジニアの西岡 @ysk24ok です。

弊社では音声認識エンジンを開発しており、これまでChainerを使って音声認識モデルの訓練・精度評価をおこなってきましたが、Chainer v7を最後に開発がストップすることが発表されたため、今回ChainerからPyTorchへの移行をおこないました。

本記事では、移行にあたってぶつかった問題や工夫した点について紹介します。

音声認識エンジンのシステム構成
PyTorch移行にあたってぶつかった問題
- 問題1: LSTMが受け取る入力の仕様の違い
- 問題2: PyTorchではモデルをhdf5形式で保存できない
- 問題3: LSTMのパラメータの持ち方がChainerとPyTorchで異なる
まとめ

続きを読む

OpenFST における N-shortest path アルゴリズムの紹介

音声認識

こんにちは。製品企画部リサーチャーの古谷（@kk_fry_）です。

私はレトリバで音声認識に関する研究開発をしています。今回の記事では、CTC 音声認識のデコーダで用いられる N-shortest path 探索アルゴリズムについて紹介したいと思います。

続きを読む

簡潔データ構造第2回: ビットベクトルに対する簡潔データ構造

文字列検索

こんにちは。レトリバのリサーチャーの木村@big_wingです。COVID-19の影響でテレワークが推進されていますが、現在私も奈良県の生駒市からフルリモートで業務を行っています。今回は簡潔データ構造について2回目の記事で、あらゆる簡潔データ構造の基本となるビットベクトルに対する簡潔データ構造を紹介します。 1回目の記事はこちらです。

簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本と岡野原氏の本があります。

続きを読む

MLFlowと他ツールの組み合わせ

機械学習・深層学習

こんにちは。カスタマーサクセス部リサーチャーの坂田です。
レトリバでは、固有表現抽出、分類、PoC用ツール作成に取り組んでいます。
PoC用ツール作成は、研究成果をより迅速にPoCで試せることを狙いとしています。実験結果の可視化UIが充実しているMLFlow を中心に、足りないところを補うため、その他のツールとの組み合わせについて考えていきます。

続きを読む

ACL2020に参加しました

自然言語処理機械学習・深層学習

こんにちは。カスタマーサクセス部リサーチャーの勝又です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。先日オンラインで開催された自然言語処理の国際会議ACLにも、リサーチャー2名が聴講参加しました。

続きを読む

wikiHowから日本語要約データを作成してみた

自然言語処理

こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事ではKoupaee and Wang[^1]によって作成された英語要約データセットを参考に、日本語でも同様の要約データセットを作成した話をします。

続きを読む

2020年度人工知能学会全国大会（第34回）に参加しました

機械学習・深層学習

こんにちは。カスタマーサクセス部研究チームリサーチャーの坂田です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。6/9～12にオンラインで開催された第34回人工知能学会全国大会にも、リサーチャー5名が聴講参加しました。

人工知能学会参加
個別の発表の紹介
- Data-to-Textモデルにおけるトピック系列を用いた一貫性の制御
- 未知語に対応可能な言語と動作の統合表現獲得モデル
- マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
終わりに

続きを読む

社Dへの道 ~社会人博士課程に入学しました~

社Dへの道 ~社会人博士課程に入学しました~

こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

この4月から、東京工業大学(東工大)の岡崎研究室に社会人博士課程で所属しており、動機・受験・会社の支援など書いていきたいと思います。

続きを読む

文字列アルゴリズムは世界を救う？Suffix Array と Longest Common Substrings

文字列検索

レトリバのCTOの武井です。

https://twitter.com/goth_wrist_cut

新型コロナウィルスが世界で猛威を振るっていますが、皆様安全に過ごせておりますでしょうか。レトリバではフルリモート化や、交流などもオンライン飲み会にするなど、工夫して過ごしています。

さて、今回はそんな新型コロナウィルス、COVID-19の遺伝子配列をターゲットに、 Longest Common Substring(最長共通部分文字列)を求めたり、そのアルゴリズムの解説をしてみようと思います。

アルゴリズムの説明自体は William Fiset さんという方が動画で説明しており、非常に分かりやすい図示がありますので、是非ご覧になって下さい。

https://www.youtube.com/watch?v=Ic80xQFWevc

https://www.youtube.com/watch?v=DTLjHSToxmo

このブログでは日本語での解説と、実際の実装まで踏み込んで紹介しています。

はじめに
Longest Common Substrings(最長共通部分文字列)とは
Suffix Array と LCS
- LCSの制約条件
- 共通部分文字列の長さ
- Slide Window
道具立て
- CardinarityQueue(異なり数カウントキュー)
- MinQueue(最小値キュー)
- SlidingWindow
コードと解説
まとめ

続きを読む

文字列検索の話(その1): ナーイブ検索と KMP法 BM法

文字列検索

CTO武井です。

今回は2018/10/02にセミナーでお話した、文字列検索の話をブログにしようと思います。

セミナーでは時間の都合もあって、スライドにコードを載せてもなぁ、という感じで詳細は省いたのですが、ブログではコードが載せられますので、コードを載せつつ説明していこうと思います。

ブログの文量が毎回とんでもないことになってしまうので (参考: 前回(33654文字) 前々回(27624文字))、今回は3～4回ぐらいに分けて、月1ぐらいのペースで書いていこうかなと思っています。

基本に立ち返って文字列検索の話をします

初回の今回は、インデックスを作らない検索、つまり、ナイーブな検索と、クエリを前処理する検索(KMP法とBM法)について説明します。

次回以降は、インデックスを作る検索やより複雑な検索の話、セミナーでは話せなかったAho-Corasickの話などをできればと思っています。 3/25にパッケージ版をリリースしました、高速塩基配列検索ソフトウェアGGGenomeでも使われているFM-Indexの話もする予定です！

文字列検索とは
ナイーブな方法
KMP法
BM法
まとめ

続きを読む

ABOUT

株式会社レトリバの技術ブログです。
レトリバのリサーチャー及びエンジニアが分担して技術的な記事を載せていこうと思います。

このブログについて

2023-11-21
日本語LLMの推論速度検証
はじめにこんにちは。横浜国立大学大学院理工学府修士2年の藤井巧朗と申します。8月24日から9月29日の５週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日本語LLMの推論速度…
2023-08-30
Pyserini（Faiss）を使ってお手軽Entity検索をやってみた！
こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、Pyseriniという情報検索の研…
2023-05-16
言語処理学会第29回年次大会(NLP2023)に参加しました
こんにちは。レトリバでは、研究動向・業界動向の把握のため、研究グループの人間は積極的に国内学会に参加しています。今回は、自然言語処理国内最大級のカンファレンスである言語処理年次大会に参加しました。 …
2023-04-04
MLflowを用いた分類エンジンの刷新
こんにちは。レトリバの飯田[(@HIROKIIIDA7)](https://twitter.com/HIROKIIIDA7)です。TSUNADE事業部研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行…

もっと見る

製品

Link

Follow @retrieva_jp Tweets by retrieva_jp