論文メモ
Big Bird: Transformers for Longer Sequences
概要
- GoogleのAttentionの計算量をO nにした話
- BigBird
- 詳細はアペンディックスにあるが、すぐに理解するのは困難 => あとでちゃんと勉強
- transformerはGPU/TPUによるSIMDアクセラレーターを利用することができる
- LSTMのようなリカレントニューラルネットワークのような逐次依存性を排除し、入力配列の各トークンに対して並列に評価できるself-attentionを導入
- NLPや計算生物学のほとんどのコンテクストでは、非常に多くの参照の局所性を示すデータがある
- NLPタスクにおける自己注意モデルを調査し、隣接する内積が非常に重要であると結論
- 内容が理解できないが、今後実際の製品に組み込まれてくるか?