wikiHowから日本語要約データを作成してみた

こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。

今回の記事ではKoupaee and Wang[^1]によって作成された英語要約データセットを参考に、日本語でも同様の要約データセットを作成した話をします。

続きを読む

2020年度 人工知能学会全国大会(第34回)に参加しました

こんにちは。カスタマーサクセス部研究チーム リサーチャーの坂田です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。6/9~12にオンラインで開催された 第34回人工知能学会全国大会にも、リサーチャー5名が聴講参加しました。

  • 人工知能学会参加
  • 個別の発表の紹介
    • Data-to-Textモデルにおけるトピック系列を用いた一貫性の制御
    • 未知語に対応可能な言語と動作の統合表現獲得モデル
    • マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
  • 終わりに
続きを読む

社Dへの道 ~社会人博士課程に入学しました~

社Dへの道 ~社会人博士課程に入学しました~

こんにちは。レトリバの飯田(@meshidenn)です。カスタマーサクセス部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。

この4月から、東京工業大学(東工大)の岡崎研究室に社会人博士課程で所属しており、動機・受験・会社の支援など書いていきたいと思います。

続きを読む

文字列アルゴリズムは世界を救う?Suffix Array と Longest Common Substrings

レトリバのCTOの武井です。

https://twitter.com/goth_wrist_cut

新型コロナウィルスが世界で猛威を振るっていますが、皆様安全に過ごせておりますでしょうか。 レトリバでは フルリモート化 や、 交流なども オンライン飲み会 にするなど、工夫して過ごしています。

さて、今回はそんな新型コロナウィルス、COVID-19の遺伝子配列をターゲットに、 Longest Common Substring(最長共通部分文字列)を求めたり、そのアルゴリズムの解説をしてみようと思います。

アルゴリズムの説明自体は William Fiset さんという方が動画で説明しており、 非常に分かりやすい図示がありますので、是非ご覧になって下さい。

https://www.youtube.com/watch?v=Ic80xQFWevc

https://www.youtube.com/watch?v=DTLjHSToxmo

このブログでは日本語での解説と、実際の実装まで踏み込んで紹介しています。

  • はじめに
  • Longest Common Substrings(最長共通部分文字列)とは
  • Suffix Array と LCS
    • LCSの制約条件
    • 共通部分文字列の長さ
    • Slide Window
  • 道具立て
    • CardinarityQueue(異なり数カウントキュー)
    • MinQueue(最小値キュー)
    • SlidingWindow
  • コードと解説
  • まとめ

続きを読む

文字列検索の話(その1): ナーイブ検索と KMP法 BM法

CTO武井です。

今回は2018/10/02にセミナーでお話した、文字列検索の話をブログにしようと思います。

セミナーでは時間の都合もあって、スライドにコードを載せてもなぁ、という感じで詳細は省いたのですが、 ブログではコードが載せられますので、コードを載せつつ説明していこうと思います。

ブログの文量が毎回とんでもないことになってしまうので (参考: 前回(33654文字) 前々回(27624文字))、 今回は3~4回ぐらいに分けて、月1ぐらいのペースで書いていこうかなと思っています。


基本に立ち返って 文字列検索の話をします

初回の今回は、インデックスを作らない検索、つまり、ナイーブな検索と、クエリを前処理する検索(KMP法とBM法)について説明します。

次回以降は、インデックスを作る検索やより複雑な検索の話、セミナーでは話せなかったAho-Corasickの話などをできればと思っています。 3/25にパッケージ版をリリースしました、 高速塩基配列検索ソフトウェアGGGenomeでも使われているFM-Indexの話もする予定です!

  • 文字列検索とは
  • ナイーブな方法
  • KMP法
  • BM法
  • まとめ

続きを読む

とある新入社員の 1 ヶ月

こんにちは。2020年度に新卒でレトリバにエンジニアとして入社した野本です。

私は今、7 月にリリース予定の YOSHINA という製品の開発に、主に細々とした要素を実装していく担当の枝葉チームとして携わっています。 今回は入社から今日までの約1ヶ月間に私がレトリバでどんなことをしてきたのかをご紹介させていただきます。

続きを読む

とある新入社員の修論解説 〜音素認識〜

はじめまして。 2020 年度に新卒でレトリバにリサーチャー職で入社した古谷(@kk_fry_)です。

私は、大学院で聴覚障害者の発話訓練を支援するための音素認識について研究していました。

そこで今回は、新入社員の第 1 回目の記事として、大学院での研究について簡単に紹介したいと思います。

続きを読む

簡潔データ構造ってなに?

こんにちは。レトリバのリサーチャーの木村@big_wingです。レトリバでは学習アルゴリズムの高速化や低リソース化に取り組んでいます。今回から何回かに分けて簡潔データ構造について紹介していく予定です。 初回である今回は簡潔データ構造の概念について紹介します。

簡潔データ構造の書籍としてはNavarro氏の本、日本語で書かれたものとしては定兼氏の本岡野原氏の本があります。

続きを読む