不同深度实景三维模型精度的混合精度策略如何确定?有没有自动化方法?

深度学习的模型正在变得越来越复杂,所需要的计算资源也越来越多,在开发更加强大的硬件的同时,很多人也在致力于改进算法。最近,百度和英伟达共同提出了一种混合精度训练的新方法,研究者称,通过使用半精度浮点数部分代替单精度,令多种深度学习模型在训练时的内存占用量减少了接近一半,同时训练速度也有所提升。

深度学习已经在很多领域里展现了自己的实力,从图像识别、语言建模、机器翻译到语音识别。目前,技术的发展主要遵从两大方向:使用更大的数据集进行训练或增加模型的复杂度。例如,Hannun 等人在 2014 年提出的语音识别模型经过了 5000 小时的训练,而更最近的声学模型则经过了接近 12,000 小时的训练(Amodei 等人,2016),Soltau

本文为机器之心编译,转载请联系本公众号获得授权。

编者按:在自动驾驶领域,神经网络的模型量化技术是一个研究热点。本文主要讨论在维持实时性与安全性两项重要指标的同时,INT8与INT4的模型量化数据比较,并揭示了INT8作为当前市场主流技术的原因。  

如今深度神经网络(DNN)已成为大多数AI应用程序中的常见算法,比如计算机视觉、语音识别和自然语言处理等方面,这些网络所表现的超强能力使其成为AI历史的里程碑。但是,它们一方面具有最先进的性能,另一方面却需要巨大的计算能力。因此可以看到,已经有许多硬软件的优化技术以及专门的体系结构开发,在不影响其准确度的情况下,能够高性能和高效率地运行这些模型【8】。

在AI最具有挑战性应用之一的自动驾驶系统中,DNN的优秀表现也比比皆是。对于自动驾驶领域而言,实时性和安全性这两项要求远超其它领域的指标。

NN模型加速和优化技术大致分为四个方案:参数量化、剪枝和共享、低秩分解、迁移/紧凑卷积滤波器和知识蒸馏等【1】。参数量化、剪枝和共享的方法探索模型参数的冗余,并尝试删除冗余和非关键参数。低秩分解的技术使用矩阵/张量分解来估计DNN的信息参数。迁移/紧凑卷积滤波器的方法设计了特殊的结构卷积滤波器,以减少参数空间,并节省存储/计算量。知识蒸馏方法学习蒸馏模型,并训练更紧凑的神经网络以复现较大网络的输出。

DNN模型可以具有上亿个参数,在计算中要存储的数据很大。研究表明,在最佳情况下,可以预测神经网络中超过95%的参数。这意味着,更简单的模型参数化可以保持DNN的性能。量化(quantization)被认为是满足DNN模型内存要求的最有效方法之一。减少内存限制的主要技术之一是减少量化位宽或比特宽(bit width)【3】。

模型参数可以采用32位/比特浮点(FP32)格式表示,但不如以定点(fixed point)格式表示,因为这几乎没有精度损失,甚至更高,但计算量却较低。这种策略不仅可以减少占用的内存,还可以减少与计算相关的功耗。但是,DNN模型的每一层对准确性都有不同的影响,因此可以使用细粒度的混合精度量化方法,其中每层权重和激活值的位宽不同。

现在人们已经证明,FP32训练的参数可以改成8位/比特整数(INT8)做推理,没有显著精度损失,甚至训练时候采用INT8也可以。Xilinx 公司实验中发现INT8可以在一个批处理大小的推理中实现性能无损,不用重新训练。

另外,DNN对噪声也具有鲁棒性。在权重或输入上添加噪声,有时候可以获得更好的性能。随机噪声充当正则化项,可以更好地泛化网络。量化DNN的低精度操作,也被看作是不会损害网络性能的噪声。

量化是通过一组离散符号或整数值去逼近一个连续信号的过程。大多数情况是指低比特量化(low bit quantization)。早在1990年代就有人提出了将浮点参数转换为数值精度较低的数据类型这种量化神经网络的方法。 从2010年代起,因为INT8被证明可以加速推理(inference)而不会显着降低准确性,人们对这项技术重新产生了兴趣。

大多数神经网络都使用FP32进行训练(training)。FP32参数表示其实精度比所需精度更高。将FP32参数转换为低位/比特整数表示可以显著地减少带宽、能耗和芯片面积。

量化参数通常可以加速神经网络推理,实际情况取决于处理器和执行环境。有时候降低精度并不总是能达到预期的加速比。例如,由于量化和反量化的附加操作,INT8推理无法在FP32实现4倍加速。例如谷歌TensorFlow-Lite 和英伟达TensorRT 的INT8推理速度也只提高了2-3倍。批处理大小(Batch size)是指前向传递中处理多个图像的能力,增加这个可让Tensor RT在INT8精度实现3-4倍的加速。

神经网络模型的偏差项(bias terms)在线性方程中会引入了截距。它们通常被视为常量,帮助网络训练并适配给定数据。由于偏差占用最少的内存(例如,10进-12出的全联接网络即FCL,有12个偏差值,对应120个权重值),所以一般建议偏差保持满精度。如果做偏差量化,则可以乘上特征尺度和权重尺度。

PTQ指对训练的模型量化权重并重新优化模型以产生尺度化的量化模型。QAT则是指微调稳定的满精度模型或者重新训练量化的模型,这样实数权重通常会尺度化为整数值。

量化方法也可以根据数据分组量化的方式大致分类为:1)按层方式;2)按通道方式。按照参数的量化带宽,可以定义为N-比特量化。还有另外一种划分方法是:1)确定性(deterministic quantization)2) 随机性(stochastic quantization)/概率性。确定性量化,其量化值与实际值之间存在一对一的映射关系;而随机性量化,其权重、激活值或梯度是离散分布的,而量化值是从这些离散分布中采样而来。

如果要量化的目的是实现硬件加速,则应首选确定性量化,因为可以预先指定适当的量化级别,以便在专用硬件上运行量化网络,对硬件的性能预期得到改善。概率量化与确定性量化的不同之处在于,其量化的权重更易于解释。可以通过概率量化来了解权重的分布,并且可以深入了解网络的工作原理。由于贝叶斯方法的正则化效应,借助概率量化还可以拥有稀疏的模型。

注:参数聚类和共享的做法有些不同。部分量化(partial quantization)方法使用聚类算法(例如k-均值)对权重状态进行量化,然后将参数存到一个压缩文件中。权重可以使用查找表或线性变换进行解压缩。通常这是在执行推理(inference)时进行。FCL(全联接层)可以通过这种方法极大地压缩权重。不过,这种方案仅是降低了模型的存储开销。

半精度浮点数 (half precision FP16) 在英伟达GPUs和ASIC加速器已经普遍应用,精度损失很小。可以采用FP16混合精度做模型训练,包括权重、激活数值和梯度等更新和存储,其中权重更新的累积误差用FP32。这样的做法已经证明可达到最佳性能,甚至比原来的浮点数网络更好。

饱和量化(Saturated quantization)用于带标定集(calibrationdataset)的标定算法,可生成特征的尺度量。激活值量化后与以前的浮点数据具有相似的分布。Kullback-Leibler发散度(也称为相对熵或信息发散度)标定量化(calibrated quantization)方法已被广泛应用,对许多常见模型,这样可以在不降低精度的情况下做到网络提速。另外模型微调过程也可以采用这种方法。

参数量化可以看成是一个穷举搜索问题,优化中发现的尺度量可以减少误差项。给定一个浮点数网络,量化器采用最小化L2误差得到初始尺度量,用于量化第一层权重。然后,调整尺度找到最低输出误差。如此这样,每个层依次执行该操作,直到最后一层。

随着量化技术的发展和成熟,已经出现了不少软件工具,一般是针对特定开发平台提供给用户。

TensorFlow-Lite(TF-Lite)是谷歌的开源框架,用于移动或嵌入式设备的模型推理。它也提供用于量化网络的转换和解释的工具。TF-Lite提供了PTQ和QAT两种量化方式。

TensorRT是英伟达开发的C++库,可在其GPU平台做高性能NN模型推理。其低精度推理库会消除卷积层的偏差项,需要一个标定集来调整每层或每通道的量化阈值。然后,量化参数表示为FP32标量和INT8权重。TensorRT采用预训练浮点数模型,并生成可重用优化的INT8模型或16比特半精度模型。英伟达Pascal系列GPU已启用低精度计算,然后图灵(Turing)架构为INT4和INT8两种精度引入了专用计算单元。

黑芝麻智能在自己独立开发的神经网络模型加速芯片(华山一号A500和华山二号A1000)基础上,在提供自动驾驶解决方案的同时,也提供了模型转换和优化的工具,同时支持PTQ和QAT两种量化方式。

虽然量化精度INT8已经被工业界普遍接受【2,6】,但是不是可以选择更小量化精度,比如4-比特/位整数(INT4),在学术界一直在进行认真研究,因为主要的担心是:在进一步减少存储空间和加速计算同时,模型性能下降甚至出现溢出(overflow)的可能风险也在增加。QAT量化方法在付出重新训练的代价后,采用INT4的量化模型应用场合会较大,但稳定性还是需要大量的实验验证,尤其是安全性要求很高的自动驾驶领域,大家不得不慎重考虑。

到底采用INT4还是INT8,学术界已经有不少研究工作报道。事实上,工业界INT4的量化产品市场上还是很少见【7】。

2018年谷歌发表一个量化网络推理的白皮书【2】,给出如下实验论断:

权重按通道量化,激活值按层量化,均是INT8的PTQ,对各种CNN架构发现,其分类性能和浮点网络的差在2%以内。

即使不支持8位整数算术,将权重量化为INT8模型大小也可以减少4倍,简单的权重PTQ可实现。

在CPU和DSP上对量化网络延迟进行基准测试:与CPU浮点数相比,量化模型实现的速度提高了2-3倍;具有定点数SIMD功能的专用处理器(例如带HVX的Qualcomm QDSP)提速高达10倍。

QAT可以提供进一步改进:在INT8情况下,其精度相对浮点数网络下降低1%;QAT还允许将权重降低到INT4,其性能损失从2%到10%,其中较小网络带来的性能下降更大。

QAT的最佳实践,可以量化权重和激活值来获得高精度。

建议权重的按通道量化和激活值的按层量化,这是是硬件加速和内核优化的首选方案。也建议用于优化推理的未来处理器和硬件加速器支持4、8和16位/比特精度模型。

2018年英特尔的研究报告【4】宣称一个4位/比特精度PTQ方法,但实际上是INT8和INT4混合精度,不需要训练微调量化模型,也不需要提供相关数据集。它以激活值和权重的量化为目标,采用三种互补方法最小化张量级的量化误差,其中两个获得闭式的解析解。这三种方法具体如下:

1)整数量化分析限幅(Analytical Clipping forInteger Quantization,ACIQ):其限制(即限幅)张量的激活值范围。虽然这会给原始张量带来失真,但会减少包含大多数分布情况的舍入误差。其通过最小化均方误差测量值,从张量的分布中分析得出最佳剪裁值。该分析阈值可以与其他量化技术集成。

2)按通道比特分配(Per-channel bitallocation):引入比特分配策略确定每个通道的最佳比特宽度。给定平均通道比特宽的限制,目标是为每个通道分配所需的比特宽,使总均方误差最小。通过对输入分布进行假设,发现每个通道的最佳量化步长与其范围的2/3幂成正比。

3)偏差校正(Bias-correction):发现量化后权重平均值和方差存在固有偏差。建议一种简单的方法来补偿这种偏差。

英特尔这个方法【4】在各种卷积模型中所达到的准确度仅比FP32基准低几个百分点。下表给出ImageNet Top-1验证的比较结果:

1)INT8权重和INT4激活值量化;

2)INT4权重和INT8激活值量化;

3)INT4权重和INT4激活值量化。

2019年华为发表的研究论文【5】提出线性量化任务可以定义成一个权重和激活值的最小均方误差(MMSE)问题,只是做低比特精度的NN模型推理,无需网络重新训练。其方法是在网络的每一层对受约束MSE问题进行优化,采用硬件觉察(HW-aware)方式对网络参数进行划分,对近似性较差的层使用多低精度量化张量方法。各种网络体系结构的多次实验,看到该方法做到了INT4模型量化。

如下表给出实验中各种模型INT4量化权重和激活值的性能比较,即准确度损失和压缩率的对比。

2020年英伟达论文提供了一个INT8量化工作的流程【6】,它将所研究的各种NN量化后模型和原浮点数模型的性能差别控制在1%以内,包括著名的MobileNets和BERT-large。以下两个表格给出了一些实验数据对比:

1)PTQ INT8 权重量化(按列或者按通道)

最近加州伯克利分校论文【9】设计了一个2进制神经网络(Dyadic Neural Network),叫HAWQ-V3,是一个混合整数精度的量化网络,有特色的工作包括:

模型推理过程仅包括整数乘法,加法和移位(bit shifting),而无需任何浮点运算/转换或整数除法。

混合精度量化作为一个整数线性规划问题,在模型扰动和内存占用/延迟之间取得平衡。

在TVM开发第一个开源4位/比特和混合精度的量化工具,ResNet50模型部署到T4 GPU,与INT8量化相比, INT4的平均速度提高了1.45倍。

ResNet50模型INT8精度量化的准确度达到77.58%,比之前的整数量化性能高2.68%;而混合精度INT4/8量化比INT8的推理延迟降低23%,而准确度仍然达到76.73%。

可以看到定点数量化模型的位/比特越小,模型存储越小,执行加速越大,但相对浮点数模型的性能下降可能性越大,溢出的风险也越大。QAT相比PTQ来说,训练的负担带来的是量化性能的保证。

INT8在工业界已经是很常见的量化精度【2,6】,INT4精度还是需要测试NN模型量化后的性能下降是否可接受【7】。INT4/INT8混合精度应该是模型准确度和执行加速的一个折衷方案【4,9】。

在自动驾驶领域,NN模型量化必须要保证安全性的指标不能出现明显下滑,那么INT4精度显然承受的系统风险较大,估计在近几年的市场INT8仍然是自动驾驶NN模型量化的主流。

雷锋网按:本文作者刘伟,来自北邮人机与认知实验室。

从某种意义上说,人类文明是一个人类对世界和自己不断认知的过程,所为认知就是对有用的数据---信息进行采集过滤、加工处理、预测输出、调整反馈的全过程,纵观人类最早的美索不达米亚文明(距今6000多年)、古埃及文明(距今6000年)及其衍生出的古希腊文化(现代西方文明的起源,距今3000年左右),其本质反映的是人与物(客观对象)之间的关系,这也是科学技术之所以在此快速发展的文化基础。

而古印度所表征的文明中常常蕴含着人与神之间的信念,排名较后的古代中国文明是四大古文明中唯一较为完整地绵延至今的文化脉搏,其核心之道理反映的是人与人、人与环境之间的沟通交流(这也许正是中华文明之所以持续的重要原因吧)。

纵观这些人、机(物)、环境之间系统交互的过程中,认知数据的产生、流通、处理、变异、卷曲、放大、衰减、消逝是无时无刻不在进行着的……如何在这充满变数的过程中保持各种可能性的稳定与连续呢?为此人们发明了各种理论和模型,使用了许多工具和方法,试图在自然与社会的秩序中找到有效的答案和万有的规律。直至近代,16世纪一位天主教教士哥白尼的“日心说”让宗教的权威逐渐转让给了科学,从此数百年来,实验和逻辑重新建构了一个完全不同的时空世界,一次又一次地减轻了人们的生理负荷、脑力负荷,甚至包括精神负荷……

随着科学思想的不断演化,技术上也取得了长足的进步,“老三论”(系统论、控制论和信息论)尚未褪色,耗散结构论、协同论、突变论等“新三论”便粉墨登场,电子管、晶体管、集成电路还未消逝,纳米、超算机、量子通信技术更是跃跃欲试。20世纪4、50年代诞生的人工智能思想和技术就是建立在这些基础领域上而涌现出的一个重要前沿方向。

但是由于认知机理的模糊、数学建模的不足、计算硬件的局限等原因,使得人工智能一直不能快速地由小到大,由弱变强。从目前了解到的数学、硬件等研究进展上看,短期内取得突破性进展将会很难,所以如何从认知机理上打开突破口就成了很多科学家的选择之处。本文旨在对深度态势感知进行初步地的介绍与述评,以期促进该领域在国内的研究与应用。

| 深度态势感知的起源

2013年6月美国空军司令部正式任命Mica R. Endsley这位以研究态势感知(Situation Awareness,SA)而著名的女科学家为新一任美国空军首席科学家,这位1990年南加州大学工业与系统工程专业毕业的女博士和她的上一任Mark T. Maybury(任期为3.5,1991年博士毕业于剑桥大学计算机系人工智能专业)都是以人机交互中的认知工程为研究方向,一改2010年9月以前美国空军首席科学家主要是以航空航天专业或机电工程专业出身的惯例。

这种以认知科学为专业背景任命首席科学家的局面在美军其他兵种当中也相当流行,这也许意味着,在未来的军民科技发展趋势中以硬件机构为主导的制造加工领域,正悄悄地让位于以软件智慧为主题的指挥控制体系。

无独有偶,正当世界各地的人工智能、自动化等专业认真研究态势感知(SituationAwareness,SA)技术之时,全球的计算机界正努力分析上下文感知(Context  Awareness,CA)算法,语言学领域对于自然语言处理中的语法、语义、语用等方面也热衷的非凡,心理学科中的情景意识讨论也是当下的热闹去处,西方哲学的主流竟也是分析哲学(是一个哲学流派,它的方法大致可以划分为两种类型:一种是人工语言的分析方法,另一种是日常语言的分析方法。),当然,神经科学等认知科学主要分支目前的研究重心也在大脑意识方面。

我们大家现在生活在一个信息日益活跃的人-机-环境(自然、社会)系统中,指挥控制系统自然就是通过人机环境三者之间交互及其信息的输入、处理、输出、反馈来调节正在进行的主题活动,进而减少或消除结果不确定性的过程。针对指挥控制系统的核心环节,Mica R. Endsley在1988年国际人因工程(Human their statusin the near future.”(就是在一定的时间和空间内对环境中的各组成成分的感知、理解,进而预知这些成分的随后变化状况”)。

具体如下图所示: 

该模型被分成三级,每一阶段都是先于下一阶段(必要但不充分),该模型沿着一个信息处理链,从感知通过解释到预测规划,从低级到高级,具体为:

第一级是对环境中各成分的感知(信息的输入),第二级是对目前的情境的综合理解(信息的处理),第三级是对随后情境的预测和规划(信息的输出)。
一般而言,人、机、环境(自然、社会)等构成特定情境的组成成分常常会发生快速的变化,在这种快节奏的态势演变中,由于没有充分的时间和足够的信息来形成对态势的全面感知、理解,所以准确对未来态势的定量预测可能会大打折扣(但应该不会影响对未来态势的定性分析)。

大数据时代,对于人工智能系统而言,如何在充分理清各组成成分及其干扰成分之间的排斥、吸引、竞争、冒险等逻辑关系的基础上,建立起基于离散规则和连续概率(甚至包括基于情感和顿悟)的、反映客观态势的定性定量综合决策模型越发显得更为重要。

简言之,不了解数据表征关系(尤其是异构变异数据)的大数据挖掘是不可靠的,建立在这种数据挖掘上的智能预测系统也不可能是可靠的。
另外,在智能预测系统中也时常面对一些管理缺陷与技术故障难以区分的问题,如何把非概念问题概念化?如何把异构问题同构化?如何把不可靠的部件组成可靠的系统?如何通过组成智能预测系统之中的前/后(刚性、柔性)反馈系统把人的失误/错误减到最小,同时把机和环境的有效性提高到最大?

对此,1975年计算机图灵奖及1978年诺贝尔经济奖得主西蒙(H.A.Simon)提出了一个聪明的对策:有限的理性,即把无限范围中的非概念、非结构化成分可以延伸成有限时空中可以操作的柔性的概念、结构化成分处理,这样就可把非线性、不确定的系统线性化、满意化处理(不追求在大海里捞一根针,而只满意在一碗水中捞针),进而把表面上无关之事物相关在了一起,使智能预测变得更加智慧落地。但是在实际工程应用中,由于各种干扰因素(主客观)及处理方法的不完善,目前态势感知理论与技术扔存在不少缺陷,鉴于此,我们尝试提出了深度态势感知这个概念,具体说明如下。

| 人的智慧与人工智能的比较

到目前为止,机器的存储依然是形式化实现的,而人智慧的往往是形象化实现的,人工智能的计算是形式化进行的实在,而人的算计往往是客观逻辑加上主观直觉融合而成的结果。计算出的预测不影响结果,算计出的期望却时常改变未来,从某种意义上说,深度态势不是计算感知出的,而是认知成的,自主有利有弊,有悖有义,是由内而外的尝试修正,是经历的验证—经验的类比迁移。如果说计算是脑机,那么算计就是心机,心有多大世界就有多大。

有人认为:人工智能就是人类在了解自己、认识自己。实际上,人工智能只是人类试图了解自己而已,因为“我是谁”这个坐标原点远远还没有确定下来……

“我是谁”的问题就是自主的初始问题,也是人所有智能坐标体系框架的坐标原点,记忆是这个坐标系中具有方向性的意识矢量(意向性),与冯诺伊曼计算机体系的存储不同,这里面的程序规则及数据信息不是静止不变的,而是在人机环境系统交互中随机应变的(所以单独的类脑意义是不大的),这种变化的灵活程度常常反映出自主性的大小。

例如语言交流是自主的典范,是根据交互情景(不是场景)展开的,无论怎样测试,都是脚本与非脚本的反应,其准确性的大小可以判定人机孰非……

 有人把语言分为三指,即指名、指心、指物三者, 并指出研究这三者及其之间的关联一直是人工智能面临的难题和挑战。无独有偶,19世纪,英国学者就提出过能指、所指的概念,细细想来,这些恐怕都不外乎涉及事物的属性(能指、感觉)及其之间的关系(所指、知觉)问题吧!实际上,一个词、一句话、一段文都离不开自主的情境限定,我们知道的要(所指)远比我们能说出来的(能指)要多得多吧?! 若不信? 想想你见过的那些眼睛会说话的人吧!溯根追源,究其因,一般是缘于此中的情理转化机制: 感性是理性的虫洞,穿越着理性的束缚与约束;理性是感性的黑洞,限制着感性的任性与恣意。正可谓,自主的意识驾驭着情理,同时有被情理奴役着……

智能的本质在于自主与“相似”的判断,在于恰如其分的把握“相似度基准”分寸。人比机器的优势之一就是:可以从较少的数据中更早的发现事物的模式。其原因之一就是源于机器没有坐标原点,即“我”是谁的问题。

对人而言,事物是否存在,其存在并不是客观的,而是我们带着主观目的观察的结果,并且这种主客观的混合物常常是情境的上下文的产物。如围绕是(Being)、应(Should)、要(Want)、能(Can)、变(Change)等过程的建构与解构往往是同时进行的。另外,即使是同一种感觉(如视觉)也具备具体指向与抽象意蕴,握手的同时除了生理接触还可以伴随心理暗示。人脑在进行自主活动时可以产生“从欧几里得空间到拓扑空间的映射“,也就是说在做选择和控制时,人可以根据具体目的的不同,其依据进行的相似度基准(不是欧式空间上的接近性,而是情理上的联系网络)是在变化的,并依此决定进行情境分类实施。

自由调节的环境系统触发了自主体系的反向运动,由此形成了人机与环境之间的多向运动或多重运动,进而导致了矛盾和冲突。这种不一致甚至相反问题的解决常常不是单纯数学知识力所能及的,一个问题有边界、有条件、有约束的求解时是数学探讨,同一个问题无边界、无条件、无约束求解时往往变成了哲学研究。例如虚构如何修正真实,真实怎样反馈与虚构?这将是一个很有味道的问题。

人的学习与机器学习不同之处在于: 人的学习是碎片化+完整性混合进行的,所以自适应性比较强,一直在进行不足信息(资源~如时空方面)情境下的稳定预测和不稳定控制,失预、失控场景时有发生,所以如何二次、三次……多次及时的快慢多级反馈调整修正就显得越发必要,在这方面,人在非结构非标准情境下的处理机制要优于机器,而在结构化标准化场景下,机器相对而言要好于人些。并且这种自适应性是累积的,慢慢会形成一种个性化的合理性期望,至此,自主(期望+预测+控制)机制开始产生了,且成长起来……“智能的真实标志不是知识,而是想象。”

爱因斯坦说:“想象力比知识更重要,因为知识是有限的,而想象力概括着世界的一切,推动着进步,并且是知识进化的源泉。”

虚构是智能的实质表征,从似曾相识、似是而非、似非而是等可强意会弱言传的现实存在可见一斑。

主流机器学习的办法是:首先用一个“学习算法”从样本中生成一个“模型”,然后以此模型为算法解决实际问题。而实际问题常常不严格区分学习过程和解题过程,而把整个系统运行分解成大量“基本步骤”,每一步由一个简单算法实现一个推理规则。这些步骤的衔接是实时确定的,一般没有严格可重复性(因为内外环境都不可重复)。因此一个通用的智能系统应该没有固定的学习算法,也应该没有不变的解题算法,而且“学习”和“推理”应是同一个过程。另外,人的学习是因果关系、相关关系甚至于风俗习惯的融合,这些有的可以程序化,很多目前还很难描述清楚(如一些主观感受、默会的知识等),而机器学习显性的知识内涵要远远大于隐性的概念外延。

实际上,对人的认知过程而言,规则与概率之间的关系是弥聚性的,规则就是大概率的存在,概率本质则是没有形成规则的状态。习惯是规则的无意识行为,学习则是概率的累积过程,包含熟悉类比和生疏修正部分,一般而言,前者是无意识的,后者是有意识的,是一个复合过程。还有,人处理信息的过程是变速的,有时是自动化的下意识习惯释放,有时是半自动化的有意识与无意识平衡,有时则是纯人工的慢条斯理,但是这个过程不是单纯的信息表达传输,还包括如何在知识向量空间中建构组织起相应的语法状态,以及重构出各种语义、语用体系。

| 深度态势感知的概念表述

深度态势感知的含义是“对态势感知的感知,是一种人机智慧,既包括了人的智慧,也融合了机器的智能(人工智能)”, 是能指+所指,既涉及事物的属性(能指、感觉)又关联它们之间的关系(所指、知觉),既能够理解弦外之音,也能够明白言外之意。它是在Endsley以主体态势感知(包括信息输入、处理、输出环节)的基础上,是包括人、机(物)、环境(自然、社会)及其相互关系的整体系统趋势分析,具有“软/硬”两种调节反馈机制;既包括自组织、自适应,也包括他组织、互适应;既包括局部的定量计算预测,也包括全局的定性算计评估,是一种具有自主、自动弥聚效应的信息修正、补偿的期望-选择-预测-控制体系。

从某种意义上讲,深度态势感知是为完成主题任务在特定环境下组织系统充分运用各种类人认知活动(如目的、感觉、注意、动因、预测、自动性、运动技能、计划、模式识别、决策、动机、经验及知识的提取、存储、执行、反馈等)的综合体现。既能够在信息、资源不足情境下运转,也能够在信息、资源超载情境下作用。

通过实验模拟和现场调查分析,我们认为深度态势感知系统中存在着 “跳蛙”现象(自动反应),即从信息输入阶段直接进入输出控制阶段(跳过了信息处理整合阶段),这主要是由于任务主题的明确、组织/个体注意力的集中和长期针对性训练的条件习惯反射引起的,如同某个人边嚼口香糖边聊天边打伞边走路一样可以无意识地协调各种自然活动的秩序,该系统进行的是近乎完美的自动控制,而不是有意识的规则条件反应。与普通态势感知系统的相比,它们信息的采样会更离散一些,尤其是在感知各种刺激后的信息过滤中(信息“过滤器”的基本功能是让指定的信号能比较顺利地通过,而对其他的信号起衰减作用,利用它可以突出有用的信号,抑制/衰减干扰、噪声信号,达到提高信噪比或选择的目的),表现了较强的“去伪存真、去粗取精”的能力。对于每个刺激客体而言,既包括有用的信息特征,又包括冗余的其它特征,而深度态势感知系统具备了准确把握刺激客体的关键信息特征的能力(可以理解为“由小见大、窥斑知豹”的能力),所以能够形成阶跃式人工智能的快速搜索比对提炼和运筹学的优化修剪规划预测的认知能力,执行主题任务自动迅速。对于普通态势感知系统来说,由于没有形成深度态势感知系统所具备的认知反应能力,所以觉察到的刺激客体中不但包括有用的信息特征,又包括冗余的其它特征,所以信息采样量大,信息融合慢,预测规划迟缓,执行力弱。

在有时间、任务压力的情境下,“经验丰富”的深度态势感知系统常常是基于离散的经验性思维图式/脚本认知决策活动(而不是基于评估),这些图式/脚本认知活动是形成自动性模式(即不需要每一步都进行分析)的基础。事实上,它们是基于以前的经验积累进行反应和行动,而不是通过常规统计概率的方法进行决策选择(基本认知决策中的情境评估是基于图式和脚本的。图式是一类概念或事件的描述,是形成长期记忆组织的基础。“Top-Down”信息控制处理过程中,被感知事件的信息可按照最匹配的存在思维图式进行映射,而在“Bottom-Up”信息自动处理过程中,根据被感知事件激起的思维图式调整不一致的匹配,或通过积极的搜索匹配最新变化的思维图式结构。)。

另一方面,深度态势感知系统有时也要被迫对一些变化了的任务情境做有意识的分析决策(自动性模式已不能保证准确操作的精度要求),但深度态势感知系统很少把注意转移到非主题或背景因素上,这将会让它的“分心”。这种现象也许与复杂的训练规则有关,因为在规则中普通态势感知系统被要求依程序执行,而规则程序设定了触发其情境认知的阈值(即遇到规定的信息被激或),而实际上,动态的情境常常会使阈值发生变化;对此,深度态势感知系统通过大量的实践和训练经验,形成了一种内隐的动态触发情境认知阈值(即遇到对自己有用的关键信息特征就被激活,而不是规定的)。

一个“Top-Down”处理过程提取信息依赖于(至少受其影响)对事物特性的以前认识;一个“Bottom-Up”处理过程提取信息只与当前的刺激有关。所以,任何涉及对一个事物识别的过程都是“Top-Down”处理过程,即对于该事物已知信息的组织过程。“Top-Down”处理过程已被证实对深度知觉及视错觉有影响。“Top-Down”与“Bottom-Up”过程是可以并行处理的。

在大多数正常情境下,态势感知系统是按“Top-Down”处理过程达到目标;而在不正常或紧急情境下,态势感知系统则可能会按“Bottom-Up”处理过程达到新的目标。无论如何,深度态势感知系统应在情境中保持主动性的(前摄的)(如使用前馈控制策略保持在情境变化的前面)而不是反应性的(如使用反馈控制策略跟上情境的变化),这一点是很重要的。这种主动性的(前摄的)策略可以通过对不正常或紧急情境下的反应训练获得。

在真实的复杂背景下,对深度态势感知系统及技术进行整体、全面的研究,根据人-机-环境系统过程中的信息传递机理,建造精确、可靠的数学模型已成为研究者所追求的目标。人类认知的经验表明:人具有从复杂环境中搜索特定目标,并对目标信息有选择处理的能力。这种搜索与选择的过程被称为注意力集中(focus attention)。在多批量、多目标、多任务情况下,快速有效地获取所需要的信息是人面临的一大难题。如何将人的认知系统所具有的环境聚焦(environment focus)和自聚焦(self focus)机制应用于多模块深度态势感知技术系统的学习,根据处理任务确定注意机制的输入,使整个深度态势感知系统在注意机制的控制之下有效地完成信息处理任务并形成高效、准确的信息输出,有可能为上述问题的解决提供新的途径。如何建立适度规模的多模块深度态势感知技术系统是首先解决的问题,另外,如何控制系统各功能模块间的整和与协调也是需要解决的一个重要问题。

通过研究,我们是这样看待深度态势感知认知技术问题的:首先深度态势感知过程不是被动地对环境的响应,而是一种主动行为,深度态势感知系统在环境信息的刺激下,通过采集、过滤,改变态势分析策略,从动态的信息流中抽取不变性,在人机环境交互作用下产生近乎知觉的操作或控制;其次,深度态势感知技术中的计算是动态的、非线形的(同认知技术计算相似),通常不需要一次将所有的问题都计算清楚,而是对所需要的信息加以计算;再者,深度态势感知技术中的计算应该是自适应的,指挥控制系统的特性应该随着与外界的交互而变化。因此,深度态势感知技术中的计算应该是外界环境、装备和人的认知感知器共同作用的结果,三者缺一不可。

研究基于人类行为特征的深度态势感知系统技术,即研究在不确定性动态环境中组织的感知及反应能力,对于社会系统中重大事变(战争、自然灾害、金融危机等)的应急指挥和组织系统、复杂工业系统中的故障快速处理、系统重构与修复、复杂坏境中仿人机器人的设计与管理等问题的解决都有着重要的参考价值。

在深度态势感知中,不是构建态势,而是建构起态势的意义框架,进而在众多不确定的情境下实现深层次的预测和规划。

一般而言,感对应的常是碎片化的属性,知则是同时进行的关联(关系)建立,人的感、知过程常常是同时进行的(机的不然),而且人可以同时进行物理、心理、生理等属性、关系的感、知,还可以混合交叉感觉、知觉,日久就会生成某种直觉或情感,从无关到弱关、从弱关到相关、从相关到强关,甚至形成“跳蛙现象”: 无关相关显性化,即直觉,类比在这个过程中起着非常重要的作用,是把隐性默会知识转化成显性规则/概率的桥梁。

根据现象学,意识最关键的是知觉,就是能觉知到周边物体和自身构成的世界。而对物体的知觉是自身和物体的互动经验整合而得到的自身对物体的可以做的行动。

比如对附近桌子上的一个苹果的知觉是可以吃,走过去可以拿在手里,可以抛起来等。一般认为知觉是信号输入,但事实上,计算机接受视频信号输入但是没有视觉,因为计算机没有行动能力。知觉需要和自身行动结合起来,这赋予输入信号语义,虽然输入信号不一定导致一定的行动。知觉的产生先经过输入信号、自身运动和环境物体协调整合,整合形成经验记忆,再遇到相关的信号是就会产生对物体的知觉(对物体可作的行动)。当然只有知觉可能还不够,智能系统还需要有推理、思考、规划的能力。但这些能力可以在知觉平台基础上构建。

人与机相比,人的语言或信息组块能力强,有限记忆和理性;机器对于语言或信息组块能力弱,无限记忆和理性,其语言(程序)运行和自我监督机制的同时实现应是保障机器可靠性的基本原则。人可以在使用母语时以不考虑语法的方式进行交流,并且在很多情境下可以感知语言、图画、音乐的多义性,如人的听觉、视觉、触觉等具有辨别性的同时还具有情感性,常常能够知觉到只可意会不可言传的信息或概念(如对哲学这种很难通过学习得到学问的思考)。机器尽管可以下棋、回答问题,但对跨领域情境的随机应变能力很弱,对彼此矛盾或含糊不清的信息不能反应(缺少必要的竞争冒险选择机制),主次不分,综合辨析识别能力不足,不会使用归纳推理演绎等方法形成概念、提出新概念,更奢谈产生形而上学的理论形式。

人与机器在语言及信息的处理差异方面,主要体现在能否把表面上无关之事物相关在一起的能力。尽管大数据时代可能会有所变化,但对机器而言,抽象表征的提炼亦即基于规则条件及概率统计的决策方式与基于情感感动及顿悟冥想的判断(人类特有的)机理之间的鸿沟依然存在。

一位伟人曾这样描述逻辑与想像的差异:“Logic will get you from A to B,Imaginationwill take you everywhere”。其实,人最大的特点就是能根据特定情境把逻辑与想像、具象与抽象进行有目的的弥聚融合。这种灵活弹性的弥散聚合机制往往与任务情境紧密相关。

正如涉及词语概念时,有些哲学家坚持认为,单词的含义是世界上所存在的物理对象所固有的,而维特根斯坦则认为,单词的含义是由人们使用单词时的语境所决定的一样。究其因,大概源于类似二极管机理中的竞争冒险现象吧。人的意识里也有, 欲言又止,左右为难,瞻前顾后。 思想斗争的根源有关与不确定性有关,与人、物、情境的不确定有关,有限的理性也许与之有某种联系吧,关键是如何平衡,找到满意解(碗中捞针),而不是找最优解(海中捞针)。

相比之下,最近战胜围棋世界冠军李世石的机器程序阿尔法狗参数调得就很好(相比之下,目前有些先进人工智能软件程序参数数量比阿尔法狗少几个数量级,但目前的调试差异主要还是定性比较不同的资源分配方案,尚未到调数值的阶段),这种参数的平衡恰恰就是竞争冒险机制的临界线,就像太极图中阴阳鱼的分界线一般。竞争冒险行为中定性与定量调整参数之间一直有个矛盾,定性是方向性问题,而定量是精确性问题,如何又红又专,往往有点to

对人类而言,最最神秘的意识如何产生,里面有两个问题,一是意识产生的基本结构,二是交互积累的经验。前者可以是生理的也可以是抽象的,是人类和机器的差异,后者对人或机器都是必须的,意识是人机环境系统交互的产物,目前的机器理论上没有机人环境系统的(主动)交互,所以没有你我他这些参照坐标系。

有人说“当前的人工智能里面没有智能,时下的知识系统里面没有知识,一切都是人类跟自己玩,努力玩得似乎符合逻辑、自然、方便而且容易记忆和维护”,此话固然有些偏颇,但也反映出了一定的道理:意识是人机环境系统交互的产物,目前的机器理论上没有人机环境系统的(主动)交互,所以没有你我他这些参照坐标系,从而很难反映出各种隐含着稳定和连续意义的某种秩序。

有位有名的摄影家曾不无深意地給攝影人說过十句話:

照片拍得不够好,是因为你离生活还不够近。
用眼睛捕捉的镜头只能称照片,用心灵捕捉的镜头才能叫艺术。
我所表达的都是真实的自我,是真正出于我的内心。
有时候最简单的照片是最困难的。
只有好照片,没有好照片的准则。
摄影师必须是照片的一部分。
我觉得影子比物体本身更吸引我。
名著、音乐、绘画都给我很多灵感和启发。
我不喜欢把摄影当作镜子只反映事实,所以在表达上留有想象空间。
我一生都在等待光与景物的交织,然后让魔法在相机中产生。
这十句话似乎对深度态势感知中的意义建构也同样有意义。

有时可把数据理解(定义)为对人刺激的表示应是对的(不一定是符号),即使是看见一个字,听到一个声,...,没有各种刺激,智能可能无法发育、生长(不是组装)。爱因斯坦原话说过: “单词和语言在我的思考工程中似乎不起任何作用。我思索时的物理实体是符号和图像,它们按照我的意愿可以随时地重生和组合。”

语言是符号的线性化, 语言也限制思维,这些许像人机智能的差异:一种记忆型(类机),一种模糊型(类人),人的优点在于可以更大范围、更大尺度(甚至超越语言)的无关相关化,机的局限性洽在于此(含大小数据): 有限的相关。如描述一个能在三维空间跟踪定位物体的系统,通过将位置和方向纳入一个目标的属性,系统能够推断出这些三维物体的关系。尽管大数据冗余也可能造成精度干扰或认知过载(信息冗余是大数据时代的自保策略),但在许多应用场合,小数据也应该有很大助益,因为毕竟小数据更加依赖分析的精度(其短板是没有大数据的信息冗余作为补偿)。

总之,深度态势感知本质上就是变与不变、一与多、自主与被动等诸多悖论产生并解决的过程。所以该系统不应是简单的人机交互而应是贯穿整个人机环境系统的自主(包含期望、选择、预测、控制,甚至涉及情感领域)认知过程。

鉴于研究深度态势感知系统涉及面较广,极易产生非线性、随机性、不确定性等系统特征,使之系统建模研究时常面临着较大困难。在之前的研究中,多种有价值的理论模型被提出并用于描述态势感知系统行为,但这些模型在对实际工程应用系统的实质及影响因素方面考虑还不够全面,也缺乏对模型可用性的实验验证,所以本文重点就是针对深度态势感知概念的实质及影响因素这两个关键问题进行了较深入探讨,追根溯源,以期早日实现高效安全可靠之深度态势感知系统,并应用于相应的人机智慧产品或系统中。

深度姿态感知:不仅仅是简单的人机交互|深度

我要回帖

更多关于 实景三维模型精度 的文章