Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling


ALS 2023採択
概要
BERT モデルのアンサンブルは、しばしば精度 を大幅に向上させるが、その代償として、計 算量とメモリフットプリントが大幅に増加す る。本研究では、単一のBERTモデルとほぼ同 等の効率を持つ、CLSベースの予測タスクのた めの新しいアンサンブル手法であるMulti-CLS BERTを提案する。Multi-CLS BERTは、パラメータ化と目的を持つ複数のCLSトークンを使用 し、その多様性を促進する。したがって、各BERTモデルをアンサンブルで微調整する(そしてテスト時にすべて実行する)のではなく、単 一のMulti-CLS BERTモデルを微調整する(そしてテスト時に1つのモデルを実行し、複数の最終CLS埋め込みだけをアンサンブルする)だけでよいのです。その有効性を検証するために 、我々はBERTのための最先端の事前学習法(Ar oca-Ouellette and Rudzicz, 2020)の上にMulti-CLS BERTを構築します。GLUEとSuperGLUE に関する実験では、我々のMulti-CLS BERTが 全体の精度と信頼度推定GLUEで100個の学習サ ンプルしか利用できない場合、MultiCLS BERTBase モデルは対応するBERTLargeモデルよりもさらに 性能が高くなる可能性があります。我々は、 我々のMulti-CLS BERTの挙動を分析し、典型 的なBERT 5-wayアンサンブルと同じ特性と挙 動の多くを持ちながら、計算とメモリが4倍近 く少ないことを示す。
先行研究との違い
- 4つの自己教師付き損失を組み合わせたAroc a-Ouellette and Rudzicz (2020)が提案したマルチタスク事前学習法を修正した。
- メモリ効率を大きく改善した
- Multi-CLS BERT Basemodelが対応するBERT Largeモデルを上回る性能を示された
有効性
この論文では、GLUEとSuperGLUEという2つのベンチマークデータセットを使用して、Multi-CLS BERTの有効性を検証しました。GLUEデータセットでは、100のトレーニングサンプルが利用可能な場合に、Multi-CLS BERT Basemodelが対応するBERT Largeモデルを上回る性能を示すことが示されました。また、SuperGLUEデータセットでも、Multi-CLS BERTが全体的な精度と信頼度の推定を改善することが示されました。これにより、Multi-CLS BERTが従来のBERTアンサンブルと同様の特性と振る舞いを持ちながら、計算量とメモリ使用量を約4倍削減できることが示されました。