Retrieva TECH BLOG

深層学習の量子化に入門してみた〜理論編〜

機械学習・深層学習自然言語処理

こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

最近、深層学習の量子化について勉強する機会があったので、この記事では量子化の理論的な話をまとめてみようと思います。

続きを読む

BERTでの語彙追加~add_tokenに気をつけろ!~

自然言語処理

こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか？諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。

そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です！

とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。

続きを読む

CTC 誤差関数を完全に理解したい（後編）

音声認識

こんにちは、リサーチャーの古谷（@kk_fry_）です。私は普段、音声認識の研究開発をしています。前回の記事から、End-to-End 音声認識で用いられる Connectionist Temporal Classification (CTC) 誤差関数の解説をしています。本記事はその後編となります。

前回は、CTC 誤差関数の定義と計算方法を解説し、その偏導関数を導出しました。今回は、CTC 誤差関数の勾配降下法による学習について解説し、その解釈を考えてみます。

続きを読む

事前学習モデルT5とTransformersを使ってお手軽日本語文書要約をやってみた

機械学習・深層学習自然言語処理

こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事では、事前学習モデルであるT5を使って日本語文書要約を行った話を紹介します。

続きを読む

IBIS2021に参加しました

機械学習・深層学習

こんにちは。レトリバのリサーチャーの木村@big_wingです。レトリバでは、研究動向・業界動向の把握のため、リサーチャーは積極的に国内学会に参加しています。今回は第24回情報論的学習理論ワークショップ (IBIS2021)に参加しました。

続きを読む

再訪: 極大部分文字列

文字列検索自然言語処理

こんにちは。レトリバのリサーチャーの木村@big_wingです。

今回は業務で久しぶりに触れる機会があったこともあり、極大部分文字列について紹介したいと思います。極大部分文字列については、有志の方のブログやスライドが公開されています。私も今回久しぶりに極大部分文字列に触れるにあたってこれらの資料は大変参考になりました、ありがとうございます。特にshiba_yu36氏のブログに極大部分文字列の元論文と各種資料へのリンクがまとまっています。

blog.shibayu36.org

続きを読む

BERTを用いた教師なし文表現

機械学習・深層学習自然言語処理

こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。

続きを読む

ラベルなしデータだけでも高い精度で文法誤り訂正ができるLM-Criticの紹介

機械学習・深層学習自然言語処理

こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事では、LM-Critic: Language Models for Unsupervised Grammatical Error Correction.を紹介します。この論文では、提案手法を用いることで、ラベルなしデータだけで文法誤り訂正が高い精度で達成できることが報告されています。

続きを読む

音響学会2021年秋季研究発表会に参加しました

音声認識

こんにちは。リサーチャーの古谷（@kk_fry_）です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。9/7～9にオンラインで開催された日本音響学会2021年秋季研究発表会にも参加しました。

今回の記事では、気になった発表をいくつかピックアップして紹介しようと思います。

各項目に講演番号を記載しているので、研究発表会のページで公開されている講演要旨を確認することができます。

続きを読む

TransformersのPipelinesで日本語固有表現抽出

機械学習・深層学習

こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。

本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。

続きを読む

ABOUT

株式会社レトリバの技術ブログです。
レトリバのリサーチャー及びエンジニアが分担して技術的な記事を載せていこうと思います。

このブログについて

2023-11-21
日本語LLMの推論速度検証
はじめにこんにちは。横浜国立大学大学院理工学府修士2年の藤井巧朗と申します。8月24日から9月29日の５週間、株式会社レトリバにインターンとして参加させていただきました。インターンでは日本語LLMの推論速度…
2023-08-30
Pyserini（Faiss）を使ってお手軽Entity検索をやってみた！
こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、Pyseriniという情報検索の研…
2023-05-16
言語処理学会第29回年次大会(NLP2023)に参加しました
こんにちは。レトリバでは、研究動向・業界動向の把握のため、研究グループの人間は積極的に国内学会に参加しています。今回は、自然言語処理国内最大級のカンファレンスである言語処理年次大会に参加しました。 …
2023-04-04
MLflowを用いた分類エンジンの刷新
こんにちは。レトリバの飯田[(@HIROKIIIDA7)](https://twitter.com/HIROKIIIDA7)です。TSUNADE事業部研究チームのリーダーをしており、分類エンジンの開発・マネジメント、検索分野の研究、チームマネジメントを行…

もっと見る

製品

Link

Follow @retrieva_jp Tweets by retrieva_jp