[論文レビュー] Big Bird: Transformers for Longer Sequences

2021年05月10日

論文メモ

Big Bird: Transformers for Longer Sequences

https://arxiv.org/pdf/2007.14062.pdf

概要

GoogleのAttentionの計算量をO nにした話
BigBird
詳細はアペンディックスにあるが、すぐに理解するのは困難 => あとでちゃんと勉強
transformerはGPU/TPUによるSIMDアクセラレーターを利用することができる
LSTMのようなリカレントニューラルネットワークのような逐次依存性を排除し、入力配列の各トークンに対して並列に評価できるself-attentionを導入
NLPや計算生物学のほとんどのコンテクストでは、非常に多くの参照の局所性を示すデータがある
NLPタスクにおける自己注意モデルを調査し、隣接する内積が非常に重要であると結論
内容が理解できないが、今後実際の製品に組み込まれてくるか？

Related Articles