ACL2020に参加しました

こんにちは。 カスタマーサクセス部リサーチャーの勝又です。

レトリバでは、研究動向・業界動向の把握のため、積極的に学会参加をしています。 先日オンラインで開催された自然言語処理の国際会議ACLにも、リサーチャー2名が聴講参加しました。

ACL参加の概観

ACLというのは自然言語処理に関する国際会議の1つであり、もっとも権威のある会議1とされています。 通常、この会議はヨーロッパ、北米、アジアと開催場所を毎年変えているのですが、今年はコロナ禍の影響によりオンラインでの開催となりました。

オンライン開催ということで、今回の発表形式は事前に録画された発表動画と、著者たちとリアルタイムでやりとりを行うQAセッションおよびチャットを用いたものとなりました。 時差の問題などでQAセッションに参加できない場合でも、発表動画を見て、質問をチャットに書き込むことができました。 日本時間で深夜帯に行われるQAセッションもいくつもあったので、このようにチャットで質問できるのは助かりました。

個別の発表の紹介

今年のACLでは採択された論文が779件だったとのことです2。 とくに、今年はBERTの分析に関する論文や、fine-tuneに関する論文が多かったように感じます。 他にもさまざまな発表がありましたが、その中でも私が興味を強く持った発表を3件紹介します。 また、SRWと呼ばれる学生セッションで、私が学生の時に関わった研究の発表があるので、そちらも紹介します。

Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

一般的に、BERTを用いる場合は大規模データで事前学習を行った後に、ラベル付きデータでfine-tuningと呼ばれる学習を行うことが多いのですが、この論文は事前学習とfine-tuningの間にさらにもう1段階学習を行うことを提案しています。 具体的には、事前学習されたRoBERTa(BERTの亜種)に対して、最終的に解きたいタスクの分野に関するラベルなしデータでMasked Language Model(MLM)と呼ばれるラベルデータ不要の学習を行い、その後fine-tuningを行っています。 さらに簡単に、fine-tuningに使用するデータを使用してMLMを行った後に、fine-tuningを行うだけでも精度が向上することが報告されました。

実は、私も学生の時に類似した研究3を行ったことがあり(問題設定は違いますが)、その時も彼らと同様に精度向上が確認できました。 この記事では紹介しないのですが、他にもSMART4と呼ばれるBERTモデルに対するfine-tuningを工夫することで精度が向上することを示した研究などもありました。 これらの研究は簡単にfine-tuningの精度向上が見込めることもあり、大変興味を持ちました。 また、この論文はHonorable paperとして賞されたそうです。

BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance

低頻度語の分散表現は工夫しないとなかなか良いものが得られません。 この研究は、低頻度語の表層情報とその低頻度語が出現する文脈情報を元に分散表現を作成し、BERTと組み合わせることで、最終的に解きたいタスクの性能が向上することを報告しています。 低頻度語の分散表現作成方法としてKhodakらの手法5などもありますが、それと比較しても高い性能とのことです。

個人的な話になりますが、なんらかの実験結果を眺めてなぜうまくいかないのかを調べている時に、低頻度語が関連している場合がこれまで何度かあったので、低頻度語について良い表現が得られるということで勉強になりました。

A Large-Scale Multi-Document Summarization Dataset from the Wikipedia Current Events Portal

こちらはWikipediaのCurrent Event Portal(WCEP)と呼ばれるコンテンツを元に複数文書要約データセットを作成した研究です。 WCEPにはある日に何が起きたのか短くまとめられた文章と、関連する外部のニュースサイトのリンクが貼られています。 この短くまとめられた文章を要約に、外部ニュースサイト記事を入力文書として彼らは要約データセットを作成しました。 また、入力側となる外部ニュースサイト記事が不足する場合があるので、Common Crawl News datasetと呼ばれる言語資源を用いて不足分を補ったとのことです。

この研究は以前紹介したwikiHowデータセット6と同様に、データの構造を利用して要約データを作成しており、アノテーションはほとんど行っていません。 実は、日本語Wikipediaにも最近の出来事と呼ばれるポータルが存在するため、これを用いて日本語版複数文書要約データセットが作成できないかと考えています。

Grammatical Error Correction Using Pseudo Learner Corpus Considering Learner's Error Tendency

こちらは昨年度研究室で私が関わった研究の1つで、都立大小町研の高橋悠進くんが主だって進めた研究です。 学習者の文法誤り訂正に関する研究で、このタスクでは近年、擬似データを用いることで精度が向上することが報告されています。 この研究ではこの擬似データの作り方の工夫について調査を行い、より学習者らしい誤り文を用いることで性能が向上することを報告しています。

この発表については、私は共著者側としてQAセッションに臨みました。 と言っても、もう1人の共著者である都立大の小町先生も参加しており、私は何もできていませんでしたが。。。 ACLに限ったことではないのですが、やはりオンライン開催になると発表者側もこれまでとは違う発表形態になり、いつもとは違った難しさが生じるように思えました。

終わりに

ACL2020はオンライン開催ということで発表時間にとらわれることなく、気になっていた発表を好きなタイミングで視聴でき、普段より多くの発表を聴講できました。 一方で、開催場所の文化や研究者との交流など、普段の現地開催で味わうことのできたものが今回はなかなか難しかったので、その点で少し残念でもありました。

弊社研究グループでは自社製品の研究開発を行うだけではなく、積極的な学術コミュニティへの参加を推奨しています。


  1. 自然言語処理系の国際会議を雑に説明してみる. [link]

  2. ACL2020: General Conference Statistics. [link]

  3. 障害レポートの分類問題に対するデータ選択を用いたBERTモデルの精度向上. 勝又智, 小町守, 真鍋章, 谷本恒野. [paper]

  4. SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization. Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao. [paper]

  5. A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors. Mikhail Khodak, Nikunj Saunshi, Yingyu Liang, Tengyu Ma, Brandon Stewart, Sanjeev Arora. [paper]

  6. WikiHow: A Large Scale Text Summarization Dataset. Mahnaz Koupaee, William Yang Wang. [paper]