Quiz · Transformer Architecture

Transformer の全体像のクイズ

3 問。すべて選んだら採点ボタンを押してください。

Q1. Attention 単体に「位置エンコーディング」を加える理由は?

学習を高速化するため Attention は内積で順序を見ないため、語順情報を明示的に注入する必要があるから softmax のスケーリングのため勾配消失を防ぐため

Q2. Transformer の総パラメータ数で最も大きな割合を占めるのは?

埋め込み層 Attention の W^Q, W^K, W^V FFN (Feed-Forward Network) 出力 LM Head

Q3. Scaling Laws (Kaplan et al. 2020) が示したことは?

モデルサイズを増やすと損失が下がるが、その下がり方は予測可能なべき乗則に従うモデルサイズと性能に関係はないデータ量だけが性能を決める学習率を上げれば性能が上がる