こんにちは。カスタマーサクセス部研究チーム リサーチャーの坂田です。
レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。6/9~12にオンラインで開催された 第34回人工知能学会全国大会にも、リサーチャー5名が聴講参加しました。
人工知能学会参加
人工知能学会では、人工知能分野の様々な研究の発表が行われます。 弊社では、文書分類・検索・固有表現抽出・音声認識・音源分離といった言語・音声処理分野の研究開発を行っています。 人工知能学会は、言語・音声処理分野はもちろんのこと、それ以外の分野の知見も得られる貴重な機会の1つです。
コロナ禍の影響で、学会のオンライン開催が続いており、今回の人工知能学会もオンライン開催でした。レトリバでは、現在でもリモート勤務が推奨されており、全員が自宅からの参加となりました。 私はざわついているところで声を聞き取るのが極端に苦手なため、発表者の方や、他の質問者の方の声が明瞭に聞こえるのは大きなメリットでした。
個別の発表の紹介
今回の発表件数は、なんと過去最高の915件とのことでした。開催期間中も、どのセッションの発表を聞くのかというのは大変悩ましかったです。その中から、いくつかの発表をご紹介したいと思います。 様々な分野の発表がありましたが、最近個人的に興味を持っているテキストデータとそれ以外のデータの組み合わせに関する研究を3つ挙げます。
Data-to-Textモデルにおけるトピック系列を用いた一貫性の制御
Amedasのデータや時間の情報などのテーブルデータから天気予報コメントを生成する研究です。コメントの正確性だけでなく、どういうトピックをどの順番で説明すべきかという一貫性も向上させることを目的としています。 コメント文を生成する単語系列デコーダに加えて、トピック系列を生成するトピック系列デコーダを導入しています。
Data to Text の研究についてはほとんど知らなかったので、テキストデータとの繋がりという観点から勉強になりました。
未知語に対応可能な言語と動作の統合表現獲得モデル
テキストから学習した学習済み分散表現では、fast や slowly といった対義語が同じような文脈で登場することによって分散表現の類似度が大きくなります。 この研究では、ロボットに対して自然言語で指示を与える際に、逆の動作の指示の類似度が上がってしまう問題に取り組んでいます。指示の言語情報用Recurrent Autoencoderとロボットの動作情報用Recurrent Autoencoderを用意し、それぞれの中間表現を近づけるように学習を行います。
人間の言語獲得の際にも動作との紐づけは重要な要素なので、これからの発展に大変興味を惹かれました。
マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
「画像」と「それを説明する文」の整合性判定において、表層的には1単語だけ入れ替わるような微妙な間違いをいかに判定するのかというところに取り組んだ研究です。画像とテキストをエンコードするLEMERTに、クラス間分散を大きく、クラス内分散を小さくする学習するための損失関数であるAdaCosを組み合わせています。画像とテキストが整合しているかどうかの2値分類タスクを解いています。
単語単位で、画像との整合度合いを可視化出来るとのことで、説明性の面でも可能性を感じました。
終わりに
弊社研究グループでは自社製品の研究開発を行うだけではなく、積極的な学術コミュニティへの参加を推奨しています。