論文共有会を開催しました

こんにちは。レトリバでは、月一回論文共有会を行っており、主にリサーチャーのメンバが論文を一本ずつ紹介するという形式をとっています。

そこで紹介された論文三本を以下で紹介します

1. Pointwise HSIC: A Linear-Time Kernelized Co-occurrence Norm for Sparse Linguistic Expressions

2018年に自然言語処理のトップカンファレンスであるACLでの論文です。論文へのリンクはこちら。また著者のスライドはこちら。

相互情報量(MI: Mutual Information)という指標は、ペアの依存関係を表す指標として広く使われます。自然言語処理でも度々使用されており、単語ベクトルは点相互情報量(PMI: Pointwise Mutual Infromation(相互情報量の推定量)) の亜種を行列分解したものとも言われています(Levy et al 2014)。

しかし、例えば文のペアを考えると、全く同じ文が出現することは稀であり、この値を推定することが困難でした。この論文では、文を潜在空間上の特徴量とし、カーネル法で使用されるHSIC(Hilbert-Schmit Independencd Criterion)をMIの代わりに用いることを提案しています。（実際にはHSICの推定料であるPHSICを使用します。)

実験として、会話文の応答候補選択する問題を設定し、DeepLearning(LSTM)による手法と比べて少量のデータでも、良い性能を出すことを示しています。

2. Fast and Accurate Least-Mean-Squares Solvers

2019年に機械学習のトップカンファレンスであるNeurIPSで発表された論文です。論文へのリンクはこちら。また著者のスライドはこちら。さらに著者の発表動画はこちら。

線形回帰やリッジ回帰、主成分分析など機械学習の様々な問題は、二乗誤差を最小化する最適化問題として定式化することができます。本論文ではこのクラスの問題に対し、訓練データの一部のみを利用した場合でも、訓練データ全体を利用した場合とまったく同じ最適解が得られる手法を提案しています。この手法によって大量の訓練データがある場合でも高速かつ数値的に安定な計算が可能になります。

手法のコアとして凸包に関するカラテオドリの定理が関わっており、論文ではカラテオドリ集合を高速に求めるアルゴリズムを提案しています。初めて論文を読んだ際に、カラテオドリの定理が関わっているということがとても新鮮で驚きました。

実験では大量の訓練データに対しても高速かつ数値的に安定した解が得られることを示しています。ただし現状では提案手法の計算量がデータの次元数の二乗に依存してしまい、手元で実験したところ、次元数が数十程度までしか高速に動きませんでした。提案手法のさらなる高速化が著者たちのfuture workとして述べられているので期待したいです。

3. SpecAugment on Large Scale Datasets

2020年開催予定の音声・信号処理のトップカンファレンスICASSPに投稿中の論文です。arXivでのリンクはこちら。

音声データのData Augmentationに関する論文です。2019年にSpecAugmentが発表されました。こちらは時間伸縮、周波数マスキングと時間帯マスキングというとてもシンプルな割に精度向上が割と期待できる手法ですが、この論文はその続編です。Data AugumentationはSpecAugment以外にもあり、例えばノイズのデータを学習データに混ぜ込んで学習データとする手法(Multistyle Training)などがあります。この手法とSpecAugmentは独立した手法なので同時に組み合わせることも可能ですが、実際には精度が低下することが知られています。

そこで、今回提案されたSpecAugment on Large Scale DatasetsではMultistyle Trainingと組み合わせても精度が向上する手法が提案されています。従来のSpecAugmentではデータの長さに関わらず、予めパラメータとして設定した幅の時間帯マスキングをランダムに行っていました。しかしそれでは音声データから作られる特徴列の長さがバラバラ(10～1000)なので短いデータの場合はマスキングの効果が大きく、長いデータの場合は効果が小さくなってしまいます。そこで、時間帯マスキングに対してデータの長さに比例する形でマスキングの数と幅を大きくすることにより長いデータに対してもマスキングの効果がちゃんと出るようにしました。これにより精度が向上し、かつMultistyle Trainingとも組み合わせることによってノイズの多いデータに対しても精度が上がるようになりました。

個人の感想としては非常にシンプルで効果があったSpecAugmentが、まだシンプルと言える範囲の変更で更に良くなったというのが驚きでした。ただ、なぜこれで精度が良くなるのかの理論的根拠には触れられておらず、著者たちも "We expect futher exploration of adaptive masking to bring improvements when SpecAugment is applied to large scale tasks." と述べていて今後の研究に期待したいです。