アーキテクチャ学習

目標: 有名なニューラルネットワークアーキテクチャの構造を視覚的に理解しよう
LeNet-5 (1998)
Input
32×32×1
Conv
5×5, 6
Pool
2×2
Conv
5×5, 16
Pool
2×2
FC
120
FC
84
Output
10
特徴
  • 最初の実用的なCNN
  • 手書き文字認識に使用
  • 約60,000パラメータ
構成
  • 2つの畳み込み層
  • 2つのプーリング層
  • 3つの全結合層
VGG-16 (2014)
Input
224×224×3
Conv×2
3×3, 64
Pool
Conv×2
3×3, 128
Pool
Conv×3
3×3, 256
Pool
Conv×3
3×3, 512
Pool
Conv×3
3×3, 512
Pool
FC
4096
FC
4096
Output
1000
特徴
  • 3×3カーネルのみ使用
  • シンプルで理解しやすい
  • 約1億3800万パラメータ
アイデア

小さな3×3カーネルを複数重ねることで、大きなカーネルと同等の受容野を持ちながら、パラメータ数を削減。

ResNet (2015)
残差ブロック(Residual Block)
Conv ReLU Conv Skip Connection (Identity) +

出力 = F(x) + x

革新的なアイデア

スキップ接続により、勾配が直接深い層に流れるため、非常に深いネットワーク(100層以上)の訓練が可能に。

バリエーション
  • ResNet-18: 1800万パラメータ
  • ResNet-50: 2600万パラメータ
  • ResNet-152: 6000万パラメータ