AACL-IJCNLP2020で発表してきました

こんにちは。カスタマーサクセス部リサーチャーの勝又です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。先日開催された AACL-IJCNLP2020 にも参加、私が学生時代に行った研究について発表しました。今回の記事ではAACL-IJCNLP2020での参加、発表報告をします。

AACL-IJCNLP2020とは
個別の発表の紹介
- Towards Non-task-specific Distillation of BERT via Sentence Representation Approximation.
AACL-IJCNLP2020での発表内容
- Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model.
おわりに

AACL-IJCNLP2020とは

AACL-IJCNLP2020（正式名称：The 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing.）は自然言語処理に関する国際会議の1つです。名称の通り、今回はAACLと呼ばれる会議とIJCNLPと呼ばれる会議の共催となっており、AACLは今回が初開催の会議です。 AACL-IJCNLP2020はアジア開催の予定だったのですが、コロナ禍の影響によりオンラインの開催となりました。

オンライン開催ということで、今回の発表形式は事前に録画された発表動画と、Zoomを利用したオンライン口頭発表でした。時差の問題で聴講したい発表に参加できない場合でも、質問をチャットに書き込むことができるようになっていました。

個別の発表の紹介

今回のAACL-IJCNLP2020では採択された論文が106件だったとのことです¹。その中の53件はアジア地域、とくに中国からは28件、全体の1/4を占めているとのことでした。ここでは、発表論文の中で私が興味を強く持った論文を1本紹介します。

Towards Non-task-specific Distillation of BERT via Sentence Representation Approximation.

近年、さまざまな研究で用いられているBERT²はパラメータ数が多く、実世界で使うには計算資源が少し重たい問題があります。この問題解決に向けて、知識蒸留と呼ばれる手法を用いて、BERTが学習した知識をより小さいモデルに転移させる研究が行われています。この研究では、事前学習されたBERTをLSTMベースのモデルに蒸留し、精度を少しだけ犠牲にする代わりに、パラメータ数の削減を行いました。

BERTを利用することで確かに解きたいタスクの精度向上は見込めますが、モデルが大きいため、計算資源の制限などで実世界での利用は難しい状況が多いです。そのような状況で、この研究のように知識蒸留などのモデルパラメータ削減技術はとても有用だと思います。機会があれば、日本語のBERTで同様のパラメータ削減を行った際の振る舞いを確認したいと思います。

AACL-IJCNLP2020での発表内容

今回のAACL-IJCNLP2020では私自身の論文発表も行って参りました。この記事ではその発表内容の紹介も行いたいと思います。

Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model.

この研究では、文法誤り訂正（Grammatical Error Correction）と呼ばれるタスクに取り組みました。この文法誤り訂正は入力として誤りを含んだ文が与えられ、それを正しい文に訂正するタスクです。文法誤り訂正に関しては以前の記事に説明が載っておりますので、気になる方はご覧ください。多くの研究がこの文法誤り訂正について、Encoder-Decoderと呼ばれるニューラルネットワークを用いて取り組んでいます。このタスクでは近年、文法誤り訂正に向けて作成した擬似データを用いることで、精度が向上することが報告されています。この擬似データは大量の単言語コーパスさえあればいいので、従来の大量のラベルが必要な問題を緩和することが期待されます。

しかしながら、この擬似データを用いた事前学習は大量の単言語データを用意し、大規模な計算資源を必要とします。たとえば、事前学習で有名なBERTはGPUを使って長い間、複数のGPUを使って事前学習を行っています。文法誤り訂正で使われるモデルはBERTよりもパラメータ数が多く、事前学習にはより多くの時間、多くのGPUを使って事前学習をする必要があります。そのような状況下で、たとえば日本語の文法誤り訂正用に事前学習モデルを用意することはちょっと腰が引けてしまうと思います。一方で、文法誤り訂正用ではなく、より汎用的に事前学習されたEncoder-Decoderであればすでにいくつか公開されています。この公開されている事前学習モデルが文法誤り訂正にも有効であれば、事前学習に必要な大規模な計算資源が不要になります。この研究ではこの既存の事前学習済みEncoder-Decoderを用いて文法誤り訂正タスクに取り組み、精度を確認しました。

BART

この研究ではBART（Bidirectional and Auto-Regressive Transformers）³と呼ばれる事前学習モデルを使用しています。このモデルはBERTのようにマスクした単語を当てるように事前学習しています。さらに、入力の文をシャッフルして、元の文の順番を当てるようにも事前学習しています。これらの事前学習を160GBの英語テキストデータで行い、要約などのタスクでfine-tuningを行うことで、高い精度となることが報告されています。また、このBARTには多言語モデルであるmBART（multilingual BART）⁴も存在しています。論文中ではBARTを利用して英語の文法誤り訂正を、mBARTを利用してさまざまな言語の文法誤り訂正を実験しました。この記事では英語、とくにBEAと呼ばれるデータセットに対する結果と、ドイツ語のFalko+MERLINと呼ばれるデータセットに対する実験結果を紹介します。

実験結果

英語の文法誤り訂正実験結果

	Precision	Recall	$F_{0.5}$
Kiyono et al.（2019）	65.5	59.4	64.2
BART	68.3	57.1	65.6

ドイツ語の文法誤り訂正実験結果

	Precision	Recall	$F_{0.5}$
Náplava and Straka（2019）	83.75	68.48	80.17
mBART	78.48	58.78	73.52

上から順に英語、ドイツ語の文法誤り訂正の実験結果です。 Kiyono et al.（2019）とNáplava and Straka（2019）はそれぞれ文法誤り訂正用に事前学習を行った手法です。 $F_{0.5}$ は大きい方が嬉しい評価尺度なので、この結果から英語については文法訂正用に事前学習を行っていないBARTの方が、精度が高いことがわかります。一方でドイツ語については文法訂正用に事前学習を行っているモデルの方が精度が高いです。この要因としてドイツ語では多言語モデルmBARTを元にしているため、他の言語の情報がノイズとして入ってしまい、うまく学習できていないことが考えられます。

研究のまとめ

この研究では汎用的な事前学習モデルを用いて文法誤り訂正を行いました。英語については文法誤り訂正用に事前学習したモデルと遜色ない結果となり、ドイツ語については及ばないものの高い結果となりました。今後は日本語の系列変換タスクにも適用していきたいと思います。

おわりに

今回の記事では、AACL-IJCNLP2020参加報告として、面白かった発表、私自身の研究について紹介しました。オンライン発表ということで、時差の関係で聴講できない口頭発表があっても、発表動画を見ることはできたので、結果として普段より多くの発表を聴講できました。私自身の発表に関しては、口頭発表で聞いてくださっている方の反応が見えないので、その点で少し難しさを覚えました。今後もこういった場に立てるように頑張っていきたいと思います。

弊社研究グループでは自社製品の研究開発を行うだけではなく、積極的な学術コミュニティへの参加を推奨しています。

AACL-IJCNLP2020 Accepted papers. [link]↩
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. [paper]↩
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer. [paper]↩
Multilingual Denoising Pre-training for Neural Machine Translation. Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer. [paper]↩