Retentive Network: A Successor to Transformer for Large Language Models

概要
- 本研究では、大規模言語モデルのための基礎アーキテクチャとして、学習並列性、低コスト推論、高性能を同時に実現する再帰ネットワーク(RetNet)を提案する。我々は、再帰と注意の関係を理論的に導出する。そして、並列、リカレント、チャンクワイズリカレントという3つの計算パラダイムをサポートする、シーケンスモデリングのためのリテンションメカニズムを提案する。具体的には、並列表現は学習の並列性を可能にする。リカレント表現では、低コストでO(1)推論が可能であり、性能を犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを向上させることができる。チャンクごとのリカレント表現は、チャンクをリカレントに要約しながら各チャンクを並列に符号化することで、線形複雑度で効率的な長シーケンスモデリングを容易にする。言語モデリングに関する実験結果は、RetNetが良好なスケーリング結果、並列学習、低コスト展開、効率的な推論を達成することを示している。この興味深い特性により、RetNetは大規模言語モデルのためのTransformerの強力な後継となる。コードはこのURLから入手できる。