論文共有会を開催しました 2020年2月

こんにちは。 レトリバでは、月1回論文共有会を行っており、主に研究グループのメンバが論文を各自1本ずつ紹介するという形式をとっています。

2月は以下の論文を紹介しました。

1. Truth or backpropaganda? An empirical investigation of deep learning theory

ICLR2020でAccept (Spotlight)となった論文です。論文及びそれに対するレビューがこちらになります。Deep Learningは各種タスクにてState-of-the-Artを達成し、実用的な研究が進んできました。その一方で応用の幅広さと比較すると理論的な解析は限定的であったり、強い仮定を置いていたりした状況でしか進んでいないという状況があります。この論文は理論として正しく特徴を捉えられていると思われていることに対して実際に用いられているネットワークにおいてもちゃんと成立するのかの検証を行ったものです。Local minima, Weight decay, Low rank, Neural tangent kernelについて触れられていました。

  • Local minima: Deep Learningでは局所解は存在するが、最適解とほぼ等しくなるので最適化が収束すれば得られた解に問題はないとされてきました。しかし、MLPにおいて構成するレイヤーの最小の次元の数に合わせたrankになるように各行列のパラメータを初期化してしまうと、最適解においても汎化性能の低いモデルを構築することができてしまいました。
  • Weight decay: Weight decay(l2ノルムによる正則化)が精度向上に良いとされているが、実はパラメータのノルムが小さいことよりも分散が小さいことの方が有効であり実際、R_{\mu}(\phi) = | (\sum_{i=1}^P \phi_i^2 ) -\mu^2|のような正則化(\mu =0の時はl2ノルムと等しい)を試すと\mu^2=2500だったり\mu^2=5000の値のときのほうが精度が良くなりました。これによりWeight decayが必ずしも最適とは限らないということがわかりました。
  • Low rank: Deep Leraningでは大きいネットワークによるパラメータ過多(over-parameterization)な状況が多々発生します。一般的な機械学習では過学習が起きてしまい、汎用性能が失われるのですがDeep Learningではそのような状況でも上手く学習できます。ただそれでもlow rankにしたり疎であった方が汎化性能が良いことが知られています。その上で「low rankかつ疎になるようになるように学習されたモデルはロバストになる」「ロバストになるように学習されたモデルはlow rankかつ疎である」という説が近年主張されました。しかし、著者たちは「low rankかつ疎になるように学習されたがロバスト性が無いモデル」及び「ロバスト性があるように学習した結果rankが高くなるモデル」を提示することによってrankと汎化性能との関係を否定しました。

Neural Tangent Kernelについては割愛させていただきます。 個人的には一つ一つのトピックでも論文になりそうなものを4つきっちり載っけてきたところが流石トップカンファレンスだと思いました。

2. Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling

2019年の自然言語処理の国際会議であるEMNLPで発表された論文です。論文へのリンクはこちら

BERTの検証で使われるGLUEのように、2文対が当該タスクの関係を捉えているかどうかを判定する問題に対する研究です。 以下3つのコンポーネントについて影響を見ています。 1. 文のEncoder 2. 文の関係度を測るコンポーネント(RM) 3. 文の文脈一致度を測るコンポーネント(SM)

BERT以外の近年の手法では、SOTAに近い結果を出しています。ablation studyを行い、2のユニットがかなり重要であることが示されています(Table2)。

また、endoerについても以下3種類を用意しています。 1. Deep(CNNをk層積み重ねたもの) 2. Wide(数種類の幅のCNNを並べたもの) 3. Contextual(Bi-LSTM)

結果として、平均的にはDeepEncoderが良い結果を出しています(Table4)。さらに、DeepEncoderの場合は、1-4層までを検証しており、基本的には層を積み上げた方が良いという結果を得ています。

最後に、batch sizeとtraining dataの割合について検証しています(Fig3)。結果として、RMとSMを合わせた方が、収束が速い点・SMには、トレーニングデータの量にsensitiveであることが検証されています

個人的な感想として、SMユニットがかなり重要であるということが、非常に面白かったです。

3. Attention Is All You Need for Chinese Word Segmentation

2019年の10月にarXiv投稿された論文です。論文へのリンクはこちら

中国語の単語分割をTransformerベースのモデルで行う取り組みです。 Transformerは、全てのトークンを平等に扱います。著者らは、単語分割を行うにあたって以下のことが重要であると考え、それを考慮する機構をTransformerに導入しました。

  1. より近い文字同士が互いに、より影響を与える。
  2. 順方向、逆方向 両方向からの影響を考慮する。

この研究では、単語分割を扱うため、文字の系列を考えます。また、Word2Vecの枠組みで事前に各文字の分散表現を用意します。
1.に関しては、Self-Attentionの QueyとKeyの積の部分に、ガウス分布に従う行列をかけることで補正を加えています。
また、2.の考慮のため、3つのEncoderを使用します。対象文字より後の文字系列をマスクした Forward Encoder、対象文字より前の文字系列をマスクした Backward Encoder、 マスクをしない Central Encoderです。順方向の情報は、Forward Encoder と Central Encoder、逆方向の情報は Backward Encoder と Central Encoder とそれぞれ和を取ることで得ます。最終的にこれらの情報を統合して単語分割をするか否かのスコア付けを行います。 結果としては、文字数が400万を超えるようなコーパスでは、F値がほとんどの既存手法のものを上回りましたが、200万以下程度だと比較的低い値となりました。学習が上手くいくためには、それなりのデータ量が必要なようです。