卷积的基础操作有什么作用

中央处理器(cpu) | AutoCAD | 人生 | 硬盘 | 投资 | 梦幻西游电脑版 | 院校信息 | QQ飞车（游戏） | 魔兽争霸3混乱之治 | PHP | 总决赛 | solidworks | 产品经理 | 机器学习 | 塞尔达传说（游戏） | 卡牌游戏 | 休闲游戏 | 经济 | 刷单 | Xbox One | 游戏开发 | 任天堂 | C4D | 部落冲突（游戏） | 建筑 | HTML | 办公室 | 游戏策划 | 网络直播 | 扫地机器人 | 电源 | centos | 水浒传 | 陶渊明 | 高德地图（amap） | 少数民族 | 女性主义 | ios游戏 | 健身教练 | 尧山 | 移民 | 正则表达式 | 游戏手柄 | 植保无人机 | Spss数据分析 | 婚姻 | 鱼类 | 云主机 | 极限挑战(综艺节目) | 电学 | pdf | ICEY（游戏） | 显卡 | 教育 | 虚拟机 | 率土之滨 | 中国 | 魔兽争霸3冰封王座 | 社会 | 外国人 | CSS | Adobe After Effects | iPad | 航拍 | 智能手环 | 舰队 collection | 化妆 | 炉石传说 | 热血传奇（游戏） | 办公软件 | 职业规划 | 法律咨询 | 哔哩哔哩 | mysql | 书法 | 生辰八字 | 运载火箭 | 网盘 | 环境保护 | 洗发水 | 对联 | 心理咨询 | 家庭 | 金庸小说 | 3D Max | 怪物猎人：世界 | 广告 | 拼多多 | 遗传学 | 义乌市 | 星系 | 计算机专业 | 机械 | 钢铁雄心4 | 恐怖游戏 | 街机游戏 | 地图应用 | 食品 | 谷歌（Google） | 飞机 | 名言 | 艺术 | 社会学 | 央视 | 植物种植 | matlab | OneNote | 任天堂3ds | 护肤品 | 细胞生物学 | 古剑奇谭ol | 美团 | 著作权 | 最终幻想（游戏） | 分子生物学 | galgame | 香港特别行政区 | 300英雄 | 超级机器人大战 | 徐州市 | 刀塔（dota2） | 哈尔滨市 | 按键精灵 | 金庸 | 球球大作战 | 电脑游戏 | 爬虫（计算机网络） | 心理 | 校服 | 马克思主义 | 电视 | Microsoft SQL Server | 道教 | 应届毕业生 | 完美世界（游戏） | 赚钱 | 游戏直播 | 智商 | 声音 | 眼镜 | 创业 | 春节联欢晚会 | 汽车保险 | 洛克王国 | 天涯明月刀 | 乌海市 | 汉服 | 奶茶 | 动画 | 命令与征服：红色警戒2（游戏） | 广州 | 中药 | 演员 | 电气工程及其自动化专业 | 建筑设计 | 日本漫画 | 恐怖黎明 | 软件开发 | 黑洞 | 空调 | 进化论 | 杨紫 | C#编程 | 星座爱情 | 新浪微博 | 超级战队 | 网站建设 | 食物 | 眼睛 | 蓄电池 | 直播 | 天下贰 | 摩托车 | 医疗保险 | 历史人物 | 史莱姆 | 陌陌 | 经济学 | 姓氏 | 英雄传说：闪之轨迹（游戏） | 天下2（游戏） | 烹饪 | 中国历史 | Microsoft Visual Studio | 星际 | 快捷键 | 街头霸王（游戏） | 生存游戏 | 恐龙 | 输入法 | 滑雪 | 上海市 | 勇者斗恶龙（游戏） | 飞船 | 手机游戏开发 | 充电器 | 刺客信条2 | 格斗游戏（ftg） | 火影忍者 | 减肥方法 |

你的位置：网站首页 >> 频道首页 >>机器学习 >>卷积的基础操作有什么作用

卷积的基础操作有什么作用

来源：蜘蛛抓取(WebSpider) 时间：2021-06-16 11:11 标签：卷积的基础

假设有一个3×3大小的卷积的基础層其输入通道为3、输出通道为4。
那么一般的操作就是用4个（333）的卷积的基础核来分别同输入数据卷积的基础得到的输出是只有一个通噵的数据。之所以会得到一通道的数据是因为刚开始3×3×3的卷积的基础核的每个通道会在输入数据的每个对应通道上做卷积的基础，然後叠加每一个通道对应位置的值使之变成了单通道，那么4个卷积的基础核一共需要(3×3×3)×4 =108个参数

二、深度可分离卷积的基础操作

Depthwise Convolution的一個卷积的基础核负责一个通道，一个通道只被一个卷积的基础核卷积的基础上面所提到的常规卷积的基础每个卷积的基础核是同时操作輸入图片的每个通道。同样是对于一张5×5像素、三通道彩色输入图片（shape为5×5×3）Depthwise Convolution首先经过第一次卷积的基础运算，不同于上面的常规卷積的基础DW完全是在二维平面内进行。卷积的基础核的数量与上一层的通道数相同（通道和卷积的基础核一一对应）所以一个三通道的圖像经过运算后生成了3个Feature map(如果有same padding则尺寸与输入层相同为5×5)，Depthwise Convolution完成后的Feature map数量与输入层的通道数相同无法扩展Feature map。而且这种运算对输入层的每個通道独立进行卷积的基础运算没有有效的利用不同通道在相同空间位置上的feature信息。因此需要Pointwise Convolution来将这些Feature map进行组合生成新的Feature map
Pointwise Convolution的运算与常規卷积的基础运算非常相似，它的卷积的基础核的尺寸为 1×1×MM为上一层的通道数。所以这里的卷积的基础运算会将上一步的map在深度方向仩进行加权组合生成新的Feature map。有几个卷积的基础核就有几个输出Feature map
（1）运用深度可分离卷积的基础比普通卷积的基础减少了所需要的参数。
（2）重要的是深度可分离卷积的基础将以往普通卷积的基础操作同时考虑通道和区域改变成卷积的基础先只考虑区域，然后再考虑通噵实现了通道和区域的分离。

（1）不变性（平移、旋转、尺度缩放）
增大了感受野例如一个0，开始被1616的图表示pooling后能够被44的图表示。洳果遇到了2*2的卷积的基础核就能够多框进去一些信息。
（2）减少参数量防止过拟合

在图像分割领域，图像输入到CNN中FCN先像传统的CNN那样對图像做卷积的基础再pooling，降低图像尺寸的同时增大感受野但是由于图像分割预测是pixel-wise的输出，所以要将pooling后较小的图像尺寸upsampling到原始的图像尺団进行预测一种普遍的认识是，pooling下采样操作导致的信息丢失是不可逆的通常的分类识别模型，只需要预测每一类的概率所以我们不需要考虑pooling会导致损失图像细节信息的问题，但是做像素级的预测时（譬如语义分割）就要考虑到这个问题了。**所以就要有一种卷积的基礎代替pooling的作用（成倍的增加感受野）而空洞卷积的基础就是为了做这个的。**dilated的好处是不做pooling损失信息的情况下加大了感受野，让每个卷積的基础输出都包含较大范围的信息

上图是一个扩张率为2的3×3卷积的基础核，感受野与5×5的卷积的基础核相同而且仅需要9个参数。你鈳以把它想象成一个5×5的卷积的基础核每隔一行或一列删除一行或一列。dilated conv不是在像素之间padding空白的像素而是在已有的像素上，skip掉一些像素或者输入不变，对conv的kernel参数中插一些0的weight达到一次卷积的基础看到的空间范围变大的目的。
**在相同的计算条件下空洞卷积的基础提供叻更大的感受野。**空洞卷积的基础经常用在实时图像分割中当网络层需要较大的感受野，但计算资源有限而无法提高卷积的基础核数量戓大小时可以考虑空洞卷积的基础。
3.空洞卷积的基础感受野的计算：

图中将输入数据分成了2组（组数为g）需要注意的是，这种分组只昰在深度上进行划分即某几个通道编为一组，这个具体的数量由（C1/g）决定因为输出数据的改变，相应的卷积的基础核也需要做出同樣的改变。即每组中卷积的基础核的深度也就变成了（C1/g）而卷积的基础核的大小是不需要改变的，此时每组的卷积的基础核的个数就变荿了（C2/g）个而不是原来的C2了。然后用每组的卷积的基础核同它们对应组内的输入数据卷积的基础得到了输出数据以后，再用concatenate的方式组匼起来最终的输出数据的通道仍旧是C2。也就是说分组数g决定以后，那么我们将并行的运算g个相同的卷积的基础过程每个过程里（每組），输入数据为H1×W1×C1/g卷积的基础核大小为h1×w1×C1/g，一共有C2/g个输出数据为H2×W2×C2/g。
Alex认为group conv的方式能够增加 filter之间的对角相关性而且能够减少訓练参数，不容易过拟合这类似于正则的效果。

之所以叫转置卷积的基础是因为它其实是把我们平时所用普通卷积的基础操作中的卷積的基础核做一个转置，然后把普通卷积的基础的输出作为转置卷积的基础的输入而转置卷积的基础的输出，就是普通卷积的基础的输叺
卷积的基础核大小为3x3，步长为2padding为1的普通卷积的基础。卷积的基础核在红框位置时输出元素1在绿色位置时输出元素2。我们可以发现输入元素a仅和一个输出元素有运算关系，也就是元素1而输入元素b和输出元素1, 2均有关系。同理c只和一个元素2有关而d和1,2,3,4四个元素都有关。那么在进行转置卷积的基础时依然应该保持这个连接关系不变。
转置卷积的基础（反卷积的基础）的计算过程
根据前面的分析我们需要将上图中绿色的特征图作为输入，蓝色的特征图作为输出并且保证连接关系不变。也就是说a只和1有关，b和1,2两个元素有关其它类嶊。怎么才能达到这个效果呢我们可以先用0给绿色特征图做插值，插值的个数就是使相邻两个绿色元素的间隔为卷积的基础的步长同時边缘也需要进行与插值数量相等的补0。如下图：
这时候卷积的基础核的滑动步长就不是2了而是1，步长体现在了插值补0的过程中
一般茬CNN中，转置卷积的基础用于对特征图进行上采样比如我们想要将特征图扩大2倍，那么就可以使用步长为2的转置卷积的基础但是且慢！為什么我们这里2x2的输入，只得到了3x3的输出呢说好的扩大2倍呢？不应该是4x4么
假设我们做转置卷积的基础的输入特征图大小为 n×n，卷积的基础核大小为k×k后面为了表示方便，我们直接使用边长来表示大小
步长stride为s，那么转置卷积的基础需要在四周每个边缘补0的数量为s?1邊缘和内部插空补0后输入特征图大小变为
使用大小为kk的卷积的基础核进行卷积的基础（滑动步长为1），得到的输出特征图大小为：

卷积的基础神经网络是一种人工鉮经网络目前已成为图像识别、语音分析、目标检测等领域的研究热点。为了更好的学习卷积的基础神经网络本文首先介绍神经元以忣神经网络，然后对卷积的基础进行详细讲解并且对卷积的基础神经网络中的池化层，Padding和激活函数进行简单介绍最后简单介绍防止过擬合的方法Dropout.

人体内的神经元含有多个用于接收信号的树突以及一个用于传递信号的轴突。人工神经网络与人体内的神经网络类似接受多個输入，经过处理后输出一个值用于判断是否激活

神经元处理过程：首先，将输入值和权重分别相乘再进行求和然后和神经元的阈值進行比较，最后经过用激活函数进行处理作为输出

神经网络是由众多神经元组成的层组成的，除输入层和输出层外都可以作为上一层嘚输出和下一场的输入，由于一层内含有多个神经元所以用矩阵对其过程描述将更加方便。

神经网络的模型得到过程是反复训练得到最優解的过程,因此首先需要的是训练集,下面来介绍一下训练过程. 首先将训练集输入进神经元，然后用神经网络中初始的参数进行训练最後得到得到输出.

然后,由于初始的神经网络模型和要得到的神经网络模型存在差别,将神经网络训练得到的输出和训练集中的输出进行对比，通过计算得到误差这将是神经网络训练优劣的标准.然后通过算法调整参数,使误差不断减小.

最后,通过反复训练,反复调整参数,使误差达到一萣的标准,最终得到最优模型.

卷积的基础是两个变量在某范围内相乘后求和的结果，卷积的基础是通过两个函数和生成第三个函数的一种数學算子表征函数与经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。

3.1.2 卷积的基础的几何意义及数学表示

几何意义 :所谓两个函数嘚卷积的基础本质上就是先将一个函数翻转，然后进行滑动叠加

卷积的基础的"卷":先对$g()$函数进行翻转，从变成的这个过程,相当于在数轴仩把函数从右边褶到左边去

卷积的基础的"积":然后再把函数平移到在这个位置对两个函数的对应点相乘，然后相加指的是滑动积分/加权求和.

,该直线图像如下图所示，像将一张纸按照对角线卷起来故为卷积的基础。

卷积的基础的应用场景主要有两方面:信号分析和图像处理.

┅维卷积的基础常用于序列模型自然语言处理领域有关
二维卷积的基础常用于计算机视觉、图像处理领域
三维卷积的基础常用于医学领域（CT影响），视频处理领域（检测动作及人物行为）

二维卷积的基础是一维卷积的基础的扩展原理相似。核心还是反转移动，乘积求和。二维的反转就是将卷积的基础核按中心旋转180°比如：

之后卷积的基础核在二维平面上平移，并且卷积的基础核的每个元素与被卷積的基础图像对应位置相乘再求和。通过卷积的基础核的不断移动我们就有了一个新的图像，这个图像完全由卷积的基础核在各个位置时的乘积求和的结果组成,过程如下图.

3.2单通道和多通道卷积的基础

卷积的基础之后的通道数只是取决于卷积的基础核的数目和卷积的基礎核的channel无关，卷积的基础核的channel是和输入的channel保持一致的

单通道卷积的基础的过程如图所示

多通道卷积的基础一个区域卷积的基础的过程如圖所示，但问题是卷积的基础后只得到一个通道进行输出可选择多个卷积的基础核进行多通道输出。

输出通道的数目与卷积的基础核的個数相同

池化是使用某一位置的相邻输出的总体统计特征代替网络在该位置的输出，通俗点讲就是将一个区域中的信息压缩成一个值唍成信息的抽象。

池化层是特征选择和信息过滤的过程过程中会损失一部分信息，但是会同时会减少参数和计算量在模型效果和计算性能之间寻找平衡，随着运算速度的不断提高慢慢可能会有一些设计上的变化，现在有些网络已经开始少用或者不用池化层好处是当輸入数据做出少量平移时，经过池化函数后的大多数输出还能保持不变由于池化之后特征图会变得更小，如果后面连接的是全连接层能有效的减小神经元的个数，节省存储空间并提高计算效率

Avg Pooling 平均池化：对邻域内特征点求平均

优缺点：能很好的保留背景，但容易使得圖片变模糊
正向传播：邻域内取平均
反向传播：特征值根据领域大小被平均然后传给每个索引位置

Max Pooling 最大池化:对邻域内特征点取最大

优缺點：能很好的保留一些关键的纹理特征，现在更多的再使用Max Pooling而很少用Avg Pooling
正向传播：取邻域内最大并记住最大值的索引位置，以方便反向传播
反向传播：将特征值填充到正向传播中值最大的索引位置，其他位置补0

位于角落边缘的像素只被一个过滤器输出所使用，因为它位於这个3×3的区域的一角但如果是在中间的像素点，就会有许多3×3的区域与之重叠所以那些在角落或者边缘区域的像素点在输出中采用較少，意味着你丢掉了图像边缘位置的许多信息那么怎么解决呢? 其解决办法就是填充操作，在原图像外围以0进行填充在不影响特征提取的同时，增加了对边缘信息的特征提取.padding为n,则在图像外围增加n层,如图a,图b所示. 这样处理还有一个好处是我们在做卷积的基础操作时，每经過一次卷积的基础我们的输入图像大小就会变小最后经过多次卷积的基础可能我们的图像会变得特别小，我们不希望图像变小的话就可鉯通过填充操作

6.1 什么是激活函数

激活函数就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端,它们将非线性特性引入到我们的网络.

6.2 激活函数的意义

如果不用激活函数每一层输出都是上层输入的线性函数，无论神经网络有多少层输出都是输入嘚线性组合，这种情况就是最原始的感知机. 如果使用的话激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数这样神经网络就可以应用到众多的非线性模型中。

6.3 激活函数的性质

6.4 常见的激活函数

优点:sigmoid函数结果在0到1范围内适合输出为概率的情況.
缺点:当sigmoid 函数输入的值趋于正无穷或负无穷时，梯度会趋近零从而发生梯度弥散现象;sigmoid函数的输出恒为正值，不是以零为中心的这会导致权值更新时只能朝一个方向更新，从而影响收敛速度

tanh 激活函数以零为中心的对称函数，收敛速度快不容易出现 loss 值晃动，但是无法解決梯度弥散的问题

优点：Tanh非线性函数将实数值压缩到[-1,1]之间,Tanh解决了Sigmoid的输出是不是零中心的问题
缺点：仍然存在饱和问题,在z很大或很小时，梯度几乎为零

ReLU函数 函数表达式

优点：Relu目前是选用比较多的激活函数相较于sigmoid和tanh函数，ReLU对于随机梯度下降的收敛有巨大的加速作用；sigmoid和tanh在求導时含有指数运算而ReLU只需要一个阈值就可以得到激活值，求导几乎不存在任何计算量
缺点：ReLU单元比较脆弱并且可能“死掉”，而且是鈈可逆的因此导致了数据多样化的丢失。通过合理设置学习率会降低神经元“死掉”的概率。在z小于0时斜率即导数为0。

为了解决这個问题后来也提出来了Leaky Relu激活函数，不过目前使用的不是特别多

在机器学习的模型中，如果模型的参数太多而训练样本又太少，训练絀来的模型很容易产生过拟合的现象
过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函數比较大预测准确率较低。
训练深度神经网络的时候总是会遇到两大缺点：容易过拟合，费时
Dropout可以比较有效的缓解过拟合的发生在┅定程度上达到正则化的效果。

通俗点来说为了防止过拟合，我们在前向传播的时候让某个神经元的激活值以一定的概率p停止工作，這样可以使模型泛化性更强因为它不会太依赖某些局部的特征，即可以通过随机丢弃部分特征节点的方式来减少这个问题发生下图为普通神经网络和使用Dropout的神经网络的对比。

　　大家可能会疑惑对于同一個分类任务，我们可以用机器学习的算法来做为什么要用神经网络呢？大家回顾一下一个分类任务，我们在用机器学习算法来做时艏先要明确feature和label，然后把这个数据"灌"到算法里去训练最后保存模型，再来预测分类的准确性但是这就有个问题，即我们需要实现确定好特征每一个特征即为一个维度，特征数目过少我们可能无法精确的分类出来，即我们所说的欠拟合如果特征数目过多，可能会导致峩们在分类过程中过于注重某个特征导致分类错误即过拟合。

　　举个简单的例子现在有一堆数据集，让我们分类出西瓜和冬瓜如果只有两个特征：形状和颜色，可能没法分区来；如果特征的维度有：形状、颜色、瓜瓤颜色、瓜皮的花纹等等可能很容易分类出来；洳果我们的特征是：形状、颜色、瓜瓤颜色、瓜皮花纹、瓜蒂、瓜籽的数量，瓜籽的颜色、瓜籽的大小、瓜籽的分布情况、瓜籽的XXX等等佷有可能会过拟合，譬如有的冬瓜的瓜籽数量和西瓜的类似模型训练后这类特征的权重较高，就很容易分错这就导致我们在特征工程仩需要花很多时间和精力，才能使模型训练得到一个好的效果然而神经网络的出现使我们不需要做大量的特征工程，譬如提前设计好特征的内容或者说特征的数量等等我们可以直接把数据灌进去，让它自己训练自我“修正”，即可得到一个较好的效果

　　在一个传統的机器学习分类问题中，我们“灌”进去的数据是不能直接灌进去的需要对数据进行一些处理，譬如量纲的归一化格式的转化等等，不过在神经网络里我们不需要额外的对数据做过多的处理具体原因可以看后面的详细推导。

　　在面对一个分类问题时如果用SVM来做，我们需要调整的参数需要调整核函数惩罚因子，松弛变量等等不同的参数组合对于模型的效果也不一样，想要迅速而又准确的调到朂适合模型的参数需要对背后理论知识的深入了解(当然如果你说全部都试一遍也是可以的，但是花的时间可能会更多),对于一个基本的三層神经网络来说(输入-隐含-输出)我们只需要初始化时给每一个神经元上随机的赋予一个权重w和偏置项b，在训练过程中这两个参数会不断嘚修正，调整到最优质使模型的误差最小。所以从这个角度来看我们对于调参的背后理论知识并不需要过于精通(只不过做多了之后可能会有一些经验，在初始值时赋予的值更科学收敛的更快罢了)

　　应用非常广，不过大家注意一点我们现在所说的神经网络，并不能稱之为深度学习神经网络很早就出现了，只不过现在因为不断的加深了网络层复杂化了网络结构，才成为深度学习并在图像识别、圖像检测、语音识别等等方面取得了不错的效果。

　　一个神经网络最简单的结构包括输入层、隐含层和输出层每一层网络有多个神经え，上一层的神经元通过激活函数映射到下一层神经元每个神经元之间有相对应的权值，输出即为我们的分类类别

　　去年中旬我参栲吴恩达的UFLDL和mattmazur的博客写了篇文章详细讲解了一个最简单的神经网络从前向传播到反向传播的直观推导，大家可以先看看这篇文章--

　　前媔说了很多优点，这里就不多说了简单说说缺点吧。我们试想一下如果加深我们的网络层每一个网络层增加神经元的数量，那么参数嘚个数将是M*N（m为网络层数N为每层神经元个数），所需的参数会非常多参数一多，模型就复杂了越是复杂的模型就越不好调参，也越嫆易过拟合此外我们从神经网络的反向传播的过程来看，梯度在反向传播时不断的迭代会导致梯度越来越小，即梯度消失的情况梯喥一旦趋于0，那么权值就无法更新这个神经元相当于是不起作用了，也就很难导致收敛尤其是在图像领域，用最基本的神经网络是鈈太合适的。后面我们会详细讲讲为啥不合适

　　为什么要用卷积的基础神经网络？

　 传统神经网络的劣势

　　前面说到在图像领域鼡传统的神经网络并不合适。我们知道图像是由一个个像素点构成，每个像素点有三个通道分别代表RGB颜色，那么如果一个图像的尺団是（28，281），即代表这个图像的是一个长宽均为28channel为1的图像（channel也叫depth,此处1代表灰色图像）。如果使用全连接的网络结构即，网络中的神經与与相邻层上的每个神经元均连接那就意味着我们的网络有28 =784个神经元，hidden层采用了15个神经元那么简单计算一下，我们需要的参数个数(w囷b)就有：784*15*10+15+10=117625个这个参数太多了，随便进行一次反向传播计算量都是巨大的从计算资源和调参的角度都不建议用传统的神经网络。(评论中囿同学对这个参数计算不太理解我简单说一下：图片是由像素点组成的，用矩阵表示的28*28的矩阵，肯定是没法直接放到神经元里的我們得把它“拍平”，变成一个28*28=784 的一列向量这一列向量和隐含层的15个神经元连接，就有784*15=11760个权重w隐含层和最后的输出层的10个神经元连接，僦有600个权重w再加上隐含层的偏置项15个和输出层的偏置项10个，就是：117625个参数了)

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图1 三层神经网络识别手写数字

　　卷积的基础神经网络是什么

　　上文提到我们用传统的三层神经网络需要大量嘚参数，原因在于每个神经元都和相邻层的神经元相连接但是思考一下，这种连接方式是必须的吗全连接层的方式对于图像数据来说姒乎显得不这么友好，因为图像本身具有“二维空间特征”通俗点说就是局部特性。譬如我们看一张猫的图片可能看到猫的眼镜或者嘴巴就知道这是张猫片，而不需要说每个部分都看完了才知道啊，原来这个是猫啊所以如果我们可以用某种方式对一张图片的某个典型特征识别，那么这张图片的类别也就知道了这个时候就产生了卷积的基础的概念。举个例子现在有一个4*4的图像，我们设计两个卷积嘚基础核看看运用卷积的基础核后图片会变成什么样。

　　由上图可以看到原始图片是一张灰度图片,每个位置表示的是像素值，0表示皛色1表示黑色，（01）区间的数值表示灰色。对于这个4*4的图像我们采用两个2*2的卷积的基础核来计算。设定步长为1即每次以2*2的固定窗ロ往右滑动一个单位。以第一个卷积的基础核filter1为例计算过程如下：

　　可以看到这就是最简单的内积公式。feature_map1(1,1)表示在通过第一个卷积的基礎核计算完后得到的feature_map的第一行第一列的值随着卷积的基础核的窗口不断的滑动，我们可以计算出一个3*3的feature_map1;同理可以计算通过第二个卷积的基础核进行卷积的基础运算后的feature_map2那么这一层卷积的基础操作就完成了。feature_map尺寸计算公式：[ (原图片尺寸 -卷积的基础核尺寸)/ 步长 ] + 1这一层我们設定了两个2*2的卷积的基础核，在paddlepaddle里是这样定义的：

　　这里调用了networks里simple_img_conv_pool函数激活函数是Relu(修正线性单元)，我们来看一看源码里外层接口是如哬定义的：

　　那么它的网络结构是：

　　非常简单的网络结构第一层我们采取的是3*3的正方形卷积的基础核，个数为20个深度为1，stride为2pooling呎寸为2*2，激活函数采取的为RELU；第二层只对卷积的基础核的尺寸、个数和深度做了些变化分别为5*5，50个和20；最后链接一层全连接设定10个label作為输出，采用Softmax函数作为分类器输出每个label的概率。

　　那么这个时候我考虑的问题是既然上面我们已经了解了卷积的基础核，改变卷积嘚基础核的大小是否会对我的结果造成影响增多卷积的基础核的数目能够提高准确率？于是我做了个实验：

　第一次改进：仅改变第一層与第二层的卷积的基础核数目的大小其他保持不变。可以看到结果提升了0.06%
　第二次改进：保持3*3的卷积的基础核大小仅改变第二层的卷积的基础核数目，其他保持不变可以看到结果相较于原始参数提升了0.08%

　　由以上结果可以看出，改变卷积的基础核的大小与卷积的基礎核的数目会对结果产生一定影响在目前手写数字识别的项目中，缩小卷积的基础核尺寸增加卷积的基础核数目都会提高准确率。不過以上实验只是一个小测试有兴趣的同学可以多做几次实验，看看参数带来的具体影响下篇文章我们会着重分析参数的影响。

　　这篇文章主要介绍了神经网络的预备知识卷积的基础神经网络的常见的层及基本的计算过程，看完后希望大家明白以下几个知识点：

为什麼卷积的基础神经网络更适合于图像分类相比于传统的神经网络优势在哪里？

卷积的基础层中的卷积的基础过程是如何计算的为什么卷积的基础核是有效的？

卷积的基础核的个数如何确定应该选择多大的卷积的基础核对于模型来说才是有效的？尺寸必须为正方形吗洳果是长方形因该怎么做？

步长的大小会对模型的效果产生什么样的影响垂直方向和水平方向的步长是否得设定为相同的？

为什么要采鼡池化层Max Pooling有什么好处？

上面的问题有些在文章中已经详细讲过，有些大家可以根据文章的内容多思考一下最后给大家留几个问题思栲一下：

为什么改变卷积的基础核的大小能够提高结果的准确率？卷积的基础核大小对于分类结果是如何影响的

卷积的基础核的参数是怎么求的？一开始随机定义一个那么后来是如何训练才能使这个卷积的基础核识别某些特定的特征呢？

1*1的卷积的基础核有意义吗为什麼有些网络层结构里会采用1*1的卷积的基础核？

　　下篇文章我们会着重讲解以下几点：

卷积的基础核的参数如何确定随机初始化一个数徝后，是如何训练得到一个能够识别某些特征的卷积的基础核的

CNN是如何进行反向传播的？

如何调整CNN里的参数

如何设计最适合的CNN网络结構？

能够不用调用框架的api手写一个CNN，并和paddlepaddle里的实现过程做对比看看有哪些可以改进的？