IBIS2020に参加しました

こんにちは。レトリバのリサーチャーの木村@big_wingです。 レトリバでは、研究動向・業界動向の把握のため、リサーチャーは積極的に国内学会に参加しています。 今回は第23回情報論的学習理論ワークショップ (IBIS2020)に参加しました。

概要

情報理論的学習理論ワークショップ (IBIS)は機械学習分野の国内最大規模の学会であり、毎年秋頃開催されています。 IBISは機械学習に関わる全般的なトピックを扱っており、学会の名前にあるような学習理論から実世界における応用的なものまでその発表内容は多岐にわたります。 また様々な分野の方が参加されるため人材交流にも力を入れており、特にプログラム委員長の「IBISの主役は学生さんです。」という言葉が印象に残っています。

今年はつくば国際会議場で開催予定でしたが、COVID-19の影響で完全オンライン形式での開催となりました。 すべての一般発表と一部の講演は事前に発表者が録画したものが期間中公開されており、セッション中は録画動画を流し、Slack上で質疑応答を行うという形式でした。 私はこのような形式のオンライン学会は初めてでしたが、聴講者の立場から多くの利点を感じました。 私が感じた最大の利点は録画動画による発表のため、発表中においても質疑応答が可能であるという点です。発表中に質問が投稿され、それに対し発表者が直ちに回答できることから多くの質疑応答が行われ、むしろオフライン形式よりも多くの情報が得られたと感じるほどでした。プログラム委員の方々は学会中を通して気軽に質問できるような雰囲気生成に尽力されており、学会中のSlack上では非常に活発な議論が行われていました。

以下に気になった講演、発表を紹介します。

続きを読む

とりあえず動かしてみる自然言語処理入門 ~ BERT MLM 編 ~

こんにちは。カスタマーサクセス部 研究チームリサーチャーの坂田です。 レトリバでは、主にPoCやPoC支援ツールの開発、話し言葉関連の研究に取り組んでいます。

今回は、最近自然言語処理に興味を持ち始めた方に向けてPythonを使ってBERTを試す方法をご紹介します。

続きを読む

検索の評価指標その2

検索の評価指標

こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

前回は、検索エンジンの評価について入門的な内容をご紹介しました。今回は、その続きとして、少し発展的な評価指標についてご紹介します。なお、以下の内容は酒井先生の書籍に記載されておりますので、詳細が気になる方は、こちらも読んでみてください。

続きを読む

NLP若手の会(YANS2020)で発表してきました

こんにちは。 カスタマーサクセス部リサーチャーの勝又です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。 先日開催されたNLP若手の会第15回シンポジウム(YANS2020)にも参加、抽象型要約について発表しました。 今回の記事ではYANS2020での参加、発表報告をします。

続きを読む

簡潔データ構造第2.5回: ビットベクトルに対する簡潔データ構造 (select編)

こんにちは。レトリバのリサーチャーの木村@big_wingです。 前回の2回目の記事ではビットベクトルに対するrank演算を実現する簡潔データ構造を紹介しましたが、今回はselect演算を実現する簡潔データ構造を紹介します。 1回目の記事はこちらです。 2回目の記事はこちらです。

簡潔データ構造をさらに詳しく知りたい方向けの紹介として、Navarro氏の本、日本語で書かれたものとしては定兼氏の本岡野原氏の本があります。

続きを読む

BERTを利用した日本語文書要約をやってみた

こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップを行っております。

今回の記事では、以前作成した日本語wikiHow要約データに対して、BERTを用いて抽出型、抽象型要約を行った話をします。

続きを読む

検索の評価指標

こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

皆さんは、検索エンジンの評価をどのように行なっていますか?検索エンジンの評価は、実はユーザが求めていることによって変わってきます。今回は、ユーザが求めていること=ユーザモデルと検索評価指標の関係について、書いていきます。なお、以下の内容は酒井先生の書籍に記載されておりますので、詳細が気になる方は、こちらも読んでみてください。

続きを読む

音声認識エンジンの深層学習フレームワークをChainerからPyTorchに移行しました

音声認識チームのソフトウェアエンジニアの西岡 @ysk24ok です。

弊社では音声認識エンジンを開発しており、これまでChainerを使って音声認識モデルの訓練・精度評価をおこなってきましたが、Chainer v7を最後に開発がストップすることが発表されたため、今回ChainerからPyTorchへの移行をおこないました。

本記事では、移行にあたってぶつかった問題や工夫した点について紹介します。

  • 音声認識エンジンのシステム構成
  • PyTorch移行にあたってぶつかった問題
    • 問題1: LSTMが受け取る入力の仕様の違い
    • 問題2: PyTorchではモデルをhdf5形式で保存できない
    • 問題3: LSTMのパラメータの持ち方がChainerとPyTorchで異なる
  • まとめ
続きを読む