論文メモ

Big Bird: Transformers for Longer Sequences

概要

  • GoogleのAttentionの計算量をO nにした話
  • BigBird
  • 詳細はアペンディックスにあるが、すぐに理解するのは困難 => あとでちゃんと勉強
  • transformerはGPU/TPUによるSIMDアクセラレーターを利用することができる
  • LSTMのようなリカレントニューラルネットワークのような逐次依存性を排除し、入力配列の各トークンに対して並列に評価できるself-attentionを導入
  • NLPや計算生物学のほとんどのコンテクストでは、非常に多くの参照の局所性を示すデータがある
  • NLPタスクにおける自己注意モデルを調査し、隣接する内積が非常に重要であると結論
  • 内容が理解できないが、今後実際の製品に組み込まれてくるか?