8 卷积神经网络¶

说明

本文档仅涉及部分内容，仅可用于复习重点知识

Convolutional Neural Network（CNN）

8.2 卷积运算基础¶

假设有两个连续函数 \(f(x), g(x)\)，卷积可表示为：

\[ h(x) = \int_{-\infty}^{+\infty} f(\tau)g(x- \tau) d\tau \]

记为 \(h(x) = (f · g)(x)\)

如果两个函数为离散函数：

\[ h(n) = (f · g)(n) = \sum\limits_{m=-\infty}^{+\infty}f(m)g(n-m) \]

物体在视网膜处投射出影像后，在视觉信号向大脑传导的过程中，并不采用所有神经元全连接的方式，而是首先进行局部处理，经过多个层次的局部处理提取出特征值，再逐层传递。这个局部的大小范围就是“感受野”。因此，基于卷积算法思想和感受野概念构成的神经网络就被命名为“卷积”神经网络

数字图像的每个像素用 RGB 三原色来表示

卷积运算就是通过设计一系列大小适中的卷积核（感受野），对数字图像的各个通道分量进行加权求和，并提取特征值的过程

补齐/填充（padding）：在输入图像的四边补上一定宽度的像素，值设置为 0
- 当卷积核的大小为 3x3，步长为 1 时，如果在四边补齐 1 个像素宽度的 0，就可以保证输出特征图的大小与输入图像相同
卷积运算
计算其他颜色通道
用新的卷积核
生成 n 组特征向量

图片来源：https://zh.d2l.ai/chapter_convolutional-neural-networks/conv-layer.html

图片来源：https://zh.d2l.ai/chapter_convolutional-neural-networks/padding-and-strides.html

图片来源：https://zh.d2l.ai/chapter_convolutional-neural-networks/padding-and-strides.html

通常，当

时，输出形状为

\[\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor \]

池化（pooling）也称下采样，其作用是缩小特征图的尺寸以减少计算量

归一化，将特征值的取值范围压缩在 0~1 之间

欢迎在评论区指出文档错误，为文档提供宝贵意见，或写下你的疑问