【図解】CNN（畳み込みニューラルネットワーク）とは？仕組みと各層を初心者向けにわかりやすく解説

CNN（畳み込みニューラルネットワーク）は、画像認識などで使われる深層学習モデルです。
本記事では、CNNの仕組みを「畳み込み層」「ReLU」「プーリング層」「全結合層」「Softmax」などの各層ごとに図解でわかりやすく解説します。

CNN（畳み込みニューラルネットワーク）でできること

CNN（Convolutional Neural Network）は、画像や動画の形・模様・特徴を自動で学習して識別することができます。

CNNは畳み込み層、活性化関数、プーリング層、全結合層、Softmax関数で構成されています。

詳細について説明します。

畳み込み層では画像の特徴量を抽出します。
特徴量は、フィルタ（カーネル）という行列を使い、特徴マップ（これも行列）を作成します。

簡単に、入力（画像）が３×３、フィルタ（カーネル）が２×２の例で説明をします。

① まずはフィルター（カーネル）を画像データの左上に重ね、各々の数値を掛けた合計を特徴マップの行列にセットします。
② 次にフィルター（カーネル）を右隣に移動して同じように計算をして特徴マップにセットします。
③ 同じようにフィルターを左下→その右隣と移動して計算結果を特徴マップにセットします。

■ストライド(stride)
今回の例ではフィルターを1つずつ移動しましたが、画像サイズに応じて移動数を増やす場合もあります。
いくつ移動するか(移動幅)はストライド(stride)といいます。
ストライドが大きくなると特徴量は小さくなります。

■パディング(padding)
フィルターを画像と重ねるとき、端のはみ出てしまう場合には計算ができません。
そこで、画像の周りに値を追加してやります。
これをパディングと言います。

計算に使用した畳み込み層のフィルターは複数あり、ぞれぞれのフィルターを使って複数の特徴マップを作成します。
また、画像は複数の畳み込み層を通過します。例えば最初のフィルターはエッジを認識、次は模様認識、次はパーツ認識などのように徐々に特徴を抽出していきます。

特徴マップがマイナスの情報を0にします。

プーリング層とは特徴マップの空間サイズを縮小する処理です。

特徴マップを縮小する目的は次の通りです。

プーリング層の計算は、特徴マップの領域を区切って、最大値（最大値プーリング）や平均値（平均値プーリング）を抽出してデータを圧縮します。
次の絵は最大値プーリングでの例です。

また、画像に若干のズレがあっても、特徴を保持できるのもポイントです。

全結合層は、畳み込み層やプーリング層によって抽出された特徴マップをもとに分類を行う層です。
特徴がどのクラスに最も近いかを判断する処理は全結合層で行われます。

softmax関数により確立として結果を希釈できるようになります。

改めて、CNN（畳み込みニューラルネットワーク）が画像認識できるのは、主に次の3つの仕組みのおかげです。

この仕組みによって、CNNは画像の中にある物体を高い精度で識別できます。

腕試し（理解テスト）に挑戦する場合はこちらをクリック。