アーキテクチャ学習
目標: 有名なニューラルネットワークアーキテクチャの構造を視覚的に理解しよう
LeNet-5 (1998)
Input
32×32×1
32×32×1
Conv
5×5, 6
5×5, 6
Pool
2×2
2×2
Conv
5×5, 16
5×5, 16
Pool
2×2
2×2
FC
120
120
FC
84
84
Output
10
10
特徴
- 最初の実用的なCNN
- 手書き文字認識に使用
- 約60,000パラメータ
構成
- 2つの畳み込み層
- 2つのプーリング層
- 3つの全結合層
VGG-16 (2014)
Input
224×224×3
224×224×3
Conv×2
3×3, 64
3×3, 64
Pool
Conv×2
3×3, 128
3×3, 128
Pool
Conv×3
3×3, 256
3×3, 256
Pool
Conv×3
3×3, 512
3×3, 512
Pool
Conv×3
3×3, 512
3×3, 512
Pool
FC
4096
4096
FC
4096
4096
Output
1000
1000
特徴
- 3×3カーネルのみ使用
- シンプルで理解しやすい
- 約1億3800万パラメータ
アイデア
小さな3×3カーネルを複数重ねることで、大きなカーネルと同等の受容野を持ちながら、パラメータ数を削減。
ResNet (2015)
残差ブロック(Residual Block)
出力 = F(x) + x
革新的なアイデア
スキップ接続により、勾配が直接深い層に流れるため、非常に深いネットワーク(100層以上)の訓練が可能に。
バリエーション
- ResNet-18: 1800万パラメータ
- ResNet-50: 2600万パラメータ
- ResNet-152: 6000万パラメータ