如何优化图神经网络架构或者软件架构来提高硬件的效率(英伟达芯片功耗高,效率就不会很突出)?

随着自动驾驶等级提升,对处理器的算力需求也水涨船高

随着自动驾驶等级提升,对处理器的算力也提出了更高的要求。

由于自动驾驶需要在不同天气、光线条件下对周围环境进行实时的感知,识别、跟踪各种动态或静态的物体并对其可能的行为进行预判,随着自动驾驶等级的提升,相应的感知需求也在大幅增加。根据地平线的数据,实现L2级别需要5个摄像头+5个毫米波雷达的方案,而要实现L3高速公路自动驾驶,需要的传感器方案则需要大幅增加为13个摄像头+9个毫米波雷达+1个激光雷达(各主机厂采用的方案不同,但传感器数量的大幅增加的趋势是显而易见的)。

传感器数量的增加意味着需要处理的数据量也在快速增长。仍根据地平线的数据,L4自动驾驶的典型像素数据高达112MP,约为L2自动驾驶的16倍;需要处理的数据量为40.8亿字节/秒,约为L2自动驾驶的30倍。

英伟达(NVDA.US)领跑自动驾驶芯片,几家巨头各有所长

目前自动驾驶芯片主要玩家可以大致分成三类。

第一类是能够提供高算力的开放性平台,主要是高通(QCOM.US)和英伟达,这类玩家具有极为丰富的软件生态,此外还包括处于半通用状态,软件生态弱于高通和英伟达的华为、赛灵思(XLNX.US)等。

第二类玩家主要是传统汽车半导体巨头,主要包括瑞萨、英飞凌、恩智浦(NXPI.US)、德州仪器(TXN.US)、意法半导体(STM.US)等。在英伟达、华为等厂商入局之后,这类玩家受到了一定的冲击,但它们并没有完全放弃自动驾驶。比如瑞萨是这类玩家中在自动驾驶芯片方面走的比较快的,它推出的针对ADAS和AD的ASIL-D级片上系统R-Car V3U算力已经能够达到60Tops,和高通的Ride平台是持平的,但量产时间节点可能会更晚一些。

第三类玩家自研人工智能的ASIC芯片,主要包括特斯拉、Mobileye以及国内的地平线、黑芝麻等,除特斯拉的自研芯片用在自己的FSD系统中之外,其他厂商往往对外提供软硬件耦合的全栈解决方案。

英伟达目前是自动驾驶芯片的领先者。目前,很多车企都选择了英伟达的芯片,背后的原因有很多:

英伟达围绕着车端、桌面端、云端构建了GPU硬件统一架构和CUDA软件架构,在人工智能高性能计算方面拥有强大算力。英伟达是业界唯一有能力提供桌面端、云端和车端三端的统一架构、统一软件开发环境的公司。在车端,英伟达构建了端到端的平台,可以提供给涵盖传感器、域控制器、数据采集软件的解决方案;在桌面端,做自动驾驶的公司往往购买的是英特尔的CPU和英伟达的游戏卡;在云端,CUDA和一系列的人工智能SDK都绕不过英伟达,且图像处理等方面的优势可以帮助英伟达的仿真平台保持竞争力。全栈能力保障了英伟达强大的生态,因为在车端、桌面端、云端的所有产品的软件平台都是一样的,在云端开发好的自动驾驶软件可以不用修改地在桌面端和车端来跑,节省了代码的修改量。同时,英伟达走的是GPU路线,开发环节比较容易,不需要跟硬件去做额外的调配;而主要对手都是以ASIC方案居多,整个工具链不是很成熟,对于开发者并不是特别友好。

英伟达进入自动驾驶市场更早,进度上领先主要竞争对手。2021年4月,英伟达发布了新一代SoC——Atlan,单SoC算力能够达到1000TOPS,预计2023年向开发者提供样品,2025年大量装车。目前英伟达自动驾驶芯片领先主要竞争对手2个代际,也就是差了差不多2年的周期。先发优势是英伟达的重要优势,因为对于主机厂来说,一旦选择了一家的平台,后续的迁移成本是相对比较高的。神经网络本身需要很多的调优,它和硬件的耦合度比较高,可能在某个硬件上好不容易调到了比较好的效果,再换一套硬件有的重新来,又需要重新调;而且现在工具链并不是很成熟,调的过程可能会比较痛苦。

我们预计高通也会是最终牌桌上的玩家之一。目前来看,高通的优势至少有几点:

性价比的优势。从成本上看,高通在消费级芯片和座舱芯片上居于领导者地位,消费级芯片和座舱芯片向自动驾驶芯片的迁移能够为高通节约掉一定的成本。比如高通的第一代Ride平台就是用了两颗座舱芯片加上一个ASIL-D的车规级自动驾驶芯片去做冗余。而从功耗上来看,高通的重要对手英伟达芯片中并行计算的主角是GPU,在做一些常见的神经网络模型的时候效率上是不如ASIC的,所以英伟达的自动驾驶芯片能效比要弱一些(当然,英伟达目前也意识到了GPU的弱点,芯片上也有ASIC架构实现的深度学习加速引擎)。

高通是座舱域的绝对领导者,有助于自动驾驶方案的推广。根据高通的数据,截至2020年底,25家顶级汽车制造商中已有20家选择高通骁龙汽车数字座舱平台,搭载8155平台的车型2021年陆续量产,到2022年高通可能能占据70%-80%的份额,虽然未来市占率再进一步攀升的空间不太大(主机厂一般会选两个平台做back up),但毫无疑问目前高通在座舱域的地位已经确立;而英伟达在座舱领域只有奔驰、奥迪、韩国现代等少量客户。由于座舱域的渗透是比驾驶域要快的,高通通过座舱域和众多主机厂形成了合作关系,通过座舱方案切入,再向主机厂推自己的自动驾驶方案。而对于主机厂来说,在座舱和自动驾驶上选同一家供应商是更为有利的,因为这样就不同同时维护两个团队去学习两家芯片厂商的软件知识。

特斯拉(TSLA.US)是一个比较封闭的生态,在先后和Mobileye、英伟达分道扬镳之后,特斯拉在2019年4月推出了自研的FSD芯片。FSD芯片的研发开始于2017年,从设计到量产共历经18个月, 在2019年4月开始正式在Model 3上应用。同一块板卡上有2颗芯片,每颗芯片的算力72TOPS,在行车过程中,两颗芯片同时对相同数据进行分析,并对比分析结果,互为验证,提高自动驾驶的安全性。

特斯拉FSD芯片的特点主要体现在高速图像处理、NPU、SRAM等三个方面。

以NPU为主:Mobileye EQ5芯片由4个模块组成,分别是CPU、CVP、DLA和MA,以CPU和CVP为主;英伟达Xavier芯片主要由GPU、CPU、DLA、PVA以及两个ASIC构成,以GPU、CPU为主。而特斯拉FSD芯片主要由三个模块构成(CPU、GPU、NPU),以NPU为主,由于特斯拉未采用雷达视觉方案,并未包含CVP模块。

高速图像处理:1)在数据传输方面,FSD系统的图像处理器SIP的数据传输速度达到25亿像素/秒,这个传输速度远远大于8颗摄像头所采集的数据量;2)在数据处理方面,FSD 芯片内置的图像处理器ISP的最高处理速度为10亿像素/秒,已经达到了最快的消费级视频传输DP1.4标准,而通常意义上讲,车载芯片是会落后于消费级芯片的;

SRAM:ISP主要的作用是把摄像头产生的原始三原色数据转化成复杂的图像信息,而在这些信息在进入NPU被进一步处理之前就会被存储在SRAM中。根据特斯拉芯片总工程师Pete Bannon的说法,处理全自动驾驶的缓存带宽至少要达到 1TB/秒,而FSD芯片SRAM的带宽达到了2TB/秒。

华为有望成为自动驾驶领域非常重要的力量。华为自研越影操作系统,既能兼容LINUX,又能做到QNX的微内核、低延时,这样的话其实能降低很多原来在LINUX框架下开发的算法移植到这种车规级量产操作系统上的软件移植的难度。同时,华为也是芯片巨头里唯一一家做传感器的厂商,激光雷达和毫米波雷达都是自研的。

Mobileye提供黑盒方案,面临一定的竞争压力。Mobileye提供的是一个黑盒解决方案,这也是目前业内不太看好它的重要原因,因为OTA是大的趋势,对于主机厂来说,黑盒方案已经越来越无法满足其需求。

本文选编自微信公众号“计算机文艺复兴”,作者:齐佳宏;智通财经编辑:卢梭

信息技术和电子技术正向着智能化方向发展。相关系统在带宽、能耗、微型化等方面的需求面临核心瓶颈的制约。另外,支撑这些系统的集成电路等比例缩小制造技术也已逼近物理极限。此时,若能在电子与光电子基础器件和制造技术上取得变革性突破并将之应用,可避免信息技术的发展出现停滞,也将重新确定未来信息技术新的强者。

本研究部将在纳米尺度上探索光与物质相互作用新的机理,揭示小尺度噪声、非线性对宏观器件的影响,攻克载流子输运的微纳尺度调控方法与技术;探索狄拉克材料及拓扑绝缘体等新材料的量子物理机制,提出超越玻尔兹曼极限、实现近零功耗电子器件与芯片的技术途径。在此基础上,研制超低功耗纳米有源、无源光电集成芯片;研制超高速、宽带集成光电子器件及相关的高频宽带光信号处理组件;研制近零功耗的、支持大规模单元集成的新型电子器件;研制高性能低功耗的计算、存储芯片。为此,本研究部将重点布局纳米光电子发光器件及集成芯片、高维并行光处理芯片、光电子器件与微波光子器件、新型基础电子器件与微传感器、可重构计算系统与存算一体新架构等方向。

1.纳米光电子发光器件及集成芯片

片上超级计算机、片上数据中心是解决制约超算或数据中心发展的两大关键性指标:能耗和速度的不二途径。该途径上的一个挑战性问题是光电子器件的纳米化、低能耗化、和集成化。本研究方向将探索新型纳米光电材料的发光物理机制,研究新型小尺寸低能耗高速纳米激光与片上光放大器;揭示纳米激光器的尺寸极限、能耗极限和高速及尺寸-能耗-速度的相互关系,研究二维相变材料进行新型的高速低能耗调制;探索纳米尺度上器件集成的新思路,研究光源、调制器、波导和探测器等关键器件的“模型”芯片的设计、材料兼容性及其研制工艺。经过5-10年的研究,最终实现低于10 fJ/bit的超低功耗片上可集成纳米激光,完成50 GHz以上超高速纳米激光的验证,打通纳米光电子关键器件集成的制作全过程,实现“模型”芯片的集成。

2.高维并行光处理芯片

随着微电子芯片内器件工艺接近物理极限,依赖微电子集成提升芯片性能的路线难以持续。光信号处理技术为突破这一瓶颈提供的新的途径。该途径需要解决的挑战性问题是:如何在有限光子器件集成度的条件下实现性能超过微电子芯片的光处理芯片。本研究方向将研究在芯片上实现复杂高维光场产生和操控功能的技术,发展高性能、高效率低功耗的高维并行光处理芯片,探索其在高性能光计算和光通信上的应用。预计未来5年内,研制出多种新型高维空间光场产生器件,实现新型波长-空间动态调控芯片,获得超高分辨的光谱操控(小于0.1nm)、超快的空间模式调制速度(大于MHz)和超大规模(有望达到100*100)的辐射阵列。

3.光电子器件与微波光子学

联合激光、微波探测,实现多波段、多维一体化目标监测和成像是未来智能平台眼睛的基本功能需求。低噪声、高灵敏度、大带宽、大动态范围的光电子器件与微波光子组件是该基本功能需求的基础支撑。本研究方向将发展半导体微纳量子结构中载流子输运的调控方法和手段;研究强度噪声、相位噪声、和载流子散粒噪声的物理机理以及抑制方法,发展原子尺度半导体薄膜和低维量子结构的制备技术和高分辨、原位、飞秒级材料与微纳结构分析和评测技术;研究基于微波光子技术的分布式相参结构,研究高精度时频动态同步原理、方法与核心技术;研究光-电一体化相参信号处理理论与方法,研究高频宽带光电一体化的收发组件原理、结构与技术。经过5年研究,实现非晶衬底上的半导体发光薄膜材料外延生长,颠覆现有半导体晶体生长的范式。实现新型全固态有源相控阵激光雷达技术突破,研制开发关键光电子核心单元器件;突破微波光子分布式相参原理、方法与核心技术,实现高精度三维微波成像。

4.新型基础电子器件与微传感器

基于现有集成电路的技术路线,等比例缩小的芯片制造技术已逐步逼近物理极限。信息处理和计算技术的发展亟待基础电子材料、器件与微传感器全新升级。本研究方法将探究低维铁磁和狄拉克材料、以及新型铁电纳米材料的生长机理;研究新型材料体系量子应用的能带、带隙、能谷、自旋及铁电起源等物理机制;调控材料体系和微纳结构的性质;挖掘新的传感物理机制;研究传感器与被测对象以及控制电路的片上集成技术。经过5年研究,同等工艺条件下,新型器件功耗降低为传统硅相应器件的80%,其中负电容逻辑器件的滞回降低到50 mV以下。未来,进一步将功耗降低为传统硅器件的50%,其中负电容逻辑器件的滞回降低到10 mV以下;实现单元集成,完成自旋逻辑运算器件、负电容晶体管与存储原理性芯片研发,并拓展应用于量子计算、人工智能等领域。

5.可重构计算系统与存算一体新架构

指令集处理器(ISAP)与专用集成电路(ASIC)已无法满足智能终端计算的要求;亟需探索突破冯诺依曼架构的新体制,推动智能计算领域的创新发展。本研究方向尝试解决该项挑战,将重点研究:可伸缩的动态变结构电路架构及电路重构方法;混合颗粒度、动态可变功能的基本计算单元和存储单元;高带宽、可扩展的动态可重构片上互连策略;存算一体化架构的理论基础、存算一体化结构的抽象计算模型及其运算机理;以及存算一体化结构的设计及相关算法在存算一体化结构上的高能效映射方法。5年内,实现软、硬件动态可编程、功能可重构计算芯片,在人工智能处理器和数据中心处理器领域设计完成2款芯片。人工智能处理器能效达到60TOPs/W;数据中心处理器相比指令驱动CPU性能提升1倍、功耗降低1倍。突破存算一体化高能效智能计算体系结构,完成计算能效高于CPU-GPU 2-3个数量级、能耗为百毫瓦量级的存算一体智能芯片研制并实现在手机、无人机等领域应用。未来设计完成高能效通用可重构可编程逻辑器件,实现对量大面广的专用集成电路的替代,探寻出我国高端集成电路的新型发展路径,提升我国集成电路产业的核心竞争力。

1.面向未来光电集成芯片的光源及器件

2007年首次提出用金属-半导体核壳结构作为激光小型化的方案,利用金属中的等离子激元和光波的耦合来将光模限制在远远小于波长的尺度,从而根本突破衍射极限,为激光器尺寸的最终小型化另辟新路。这一方案目前被国际上很多研究组采纳。2009年首次研制了光学厚度小于半波长的金属腔激光器,这是世界上第一个尺度小于衍射极限的电注入激光器。在2013年首次在世界上实现了电注入、室温下连续模运转的金属等离子激元激光器,从而为这种纳米激光器的实用化迈出了关键的第一步。

金属等离子激元激光研究成果

2.半导体合金纳米材料、多波长激光及白光激光器:2015年首次在单一纳米半导体薄膜上一次生长出支持三原色同时激光运转的异质结,在国际上首次实现了白光激光器,相关结果在《自然·纳米技术》上发表。2015年底,美国著名科技杂志《Popular Science》将“白光激光”的发明评为该年度工程类的十大发明之一(“The Greatest Tech of the Year”),中国激光网将白光激光选为2015年十大新型激光器,及激光领域的十大技术进展。

半导体合金纳米材料、多波长激光及白光激光器研究成果

3.硅基二维材料纳米激光器和芯片上光放大器

2017年首次实现了室温下连续模运转的硅基二维材料的纳米激光器,相应结果发表在Nature Nanotechnology杂志上,并获得2017年“中国光学十大进展”- 基础研究类。研制出一种生长在硅基衬底上的新型单晶铒化合物纳米线,并首次在单根纳米线上准确测量了材料的本征吸收系数,最终获得高达100dB/cm的光学净增益,相应结果发表在2017年Nature Photonics杂志上。这一研究结果对于硅基片上光子集成的纳米激光器和光放大器等具有重要意义。

硅基二维材料纳米激光及纳米线波导实现光放大示意图

4.基于超材料的自由电子辐射芯片

提出并实验论证了SPP超材料中的“无阈值切伦科夫辐射”,实现了低速自由电子的光频段辐射,创造性地设计研制出世界首款自由电子辐射芯片——片上集成的自由电子光源。论文发表于2017年的《Nature Photonics》,并作为当期网站主页封面文章。该研究成果从根本上解决了切伦科夫辐射需要极高电子速度这一科学界几十年来的难题,将推动光电子器件领域 “自由电子辐射芯片”这一全新的研究方向的发展。研究工作入选“2017中国光学十大进展”。

5.在新的电子器件方面取得突破

实现了电压调控可塑性的石墨烯类突触器件,这一新型动态突触器件在同一个器件上实现了兴奋型与抑制型的突触行为,为类脑计算芯片的设计与实现提供了新的思路与支撑技术(Nano Letters 13?8019);实现了电压调控存储窗口的石墨烯阻变存储器,这一新型存储器的写入电压连续可调,有望对新一代高密度存储技术产生重要影响(Advanced Materials, 67–7774)。采用石墨烯修饰介质层和电极界面,实现了一种低阻态阻值、低功耗石墨烯存储器(Nano Letters 13, 651-657 (2013))。

实现了阻变存储器在10 pA极低工作电流下工作,其功耗仅为28 pW,远低于传统阻变存储器mW~nW量级的功耗。该器件的仿生突触能耗仅为400 fJ/spike,已经非常接近人脑~1-100 fJ/spike的超低能耗,此项成果对于极低功耗的仿生神经计算具有重要意义(ACS Nano, ), pp 12247–12256)。

1.光通信波段量子光源器件

在国内率先开展基于硅基光子器件的量子光源研究,充分应用硅波导量子光源的高维时频纠缠特性第一次利用光纤长距离实现量子鬼像。发展的光通信波段双光子量子光源还应用到:光纤传送量子安全直接通信实验,基于独立量子光源的量子隐形传态实验和量子纠缠交换实验等。成果已进入产品化阶段。

2.微波光子滤波器组件及其硅基集成芯片

提出电域等效切片原理实现光域频谱的超高精细度切割,解决光域频谱硬切割精度差的难题;揭示FIR滤波器的Q值最终受限于组件的高阶色散;发明一种微波光子滤波器高阶色散高精度在线测量的方法;提出并实现一种可消除高阶色散的微波光子滤波器原理与结构。最终实现W波段(75~110GHz)Q值创纪录(>6400)的、可调、任意复系数可重构的FIR微波光子滤波器。相关学术成果发表在Light:

W波段可调、可重构FIR 微波光子滤波器组件

提出基于双层耦合超低损氮化硅波导的超长延时线(~50cm)和级联MZI光子回路,实现了7个零点的FIR超精细微波光子集成信号处理芯片,处理精度145MHz;提出了基于类自感应透明效应的超精细微波光子信号处理芯片,可以对微环Q值进行200倍以上的增强,处理精细度可达2.2MHZ,等效光域Q值达8E7,是当时同类微波光子信号处理器精度最高记录。实现了频率范围覆盖1-65GHz的微波信号可调谐精细处理,处理精度为500MHz。

基于新型快速时频空映射光场信息的产生与获取,结合波分技术解决了激光扫描成像中成像帧率和色散分辨率的基本矛盾限制,实现了目前世界上最快速的实时线扫描成像技术,将扫描速率提高到了2GHz,并应用于流式细胞检测。

实现了快速的结构光照明成像与数据压缩系统,克服了传统结构光调制技术的速度缺陷,把结构光产生的速度提升到50MHz,比目前最快的DMD快3个数量级;在1.55微米波段实现了超越衍射分辨极限40%的超快超分辨成像。

4.基于光子原理的宽带微波收发组件的研究

提出一种光子辅助PDAC结构和技术,消除电子DAC时间抖动等限制DAC高频宽带的影响,实现了带宽10GHz任意波形的产生。以该PDAC为基础研制了一种波形可重构的宽带微波发射组件。提出一种带宽可重构的、支持下变频/去斜等、功能灵活的宽带微波光子接收前端。以此为基础研制成功一种0-100GHz可调、可重构的宽带微波接收组件。实现了X波段4GHz带宽、W波段10GHz带宽运动目标的成像,分辨率分别为5cm和1.9cm。成果获国家发明专利7项,SCI论文十数篇,已迈入应用研究阶段。

宽带微波光子雷达发射、接收机

X波段4GHz成像雷达的成像效果与分辨率

W波段10GHz宽带微波光子雷达成像分辨率与成像效果

基于铁电存储器件的分布式非易失存储架构,成功设计了世界上首款低功耗非易失处理器THU1010N,流片结果表明:与工业界最先进的MSP430系列处理器相比,THU1010N的唤醒速度、休眠能耗都有2-4数量级的提升。完成了世界上最快的非易失处理器THU2015N并发表在芯片领域国际顶级会议ISSCC上。设计了集成度最高的非易失处理器THU1020N,非易失FPGA技术和柔性伪CMOS逻辑电路噪声容限模型。THU1020N拥有最高的集成度,数据发送效率提高了27倍。

设计完成的非易失智能传感芯片

经过近10年的努力,实现了高速高精度数模转换器(DAC)从无到有、从落后到超越国外禁运指标的质的飞跃。在公开发表的论文中,本研究提出了高速高精度DAC设计的第一个交织的数字域动态随机归零技术、第一个互补电流源技术、第一个基于冗余的空间过采样技术,提出了自适应的码字不相关开关切换技术。基于这些技术的14位精度3.0GS/s采样率的DAC芯片已经实现了442MHz带宽内超过70.5dB的动态范围,以及1000MHz带宽内超过54.7dB的动态范围,远远超过了欧美对华禁运的指标(12位、1.25GS/s、100MHz处68dB动态范围)。该研究成果获得授权发明专利7项,发表顶级SCI源刊和国际会议论文8篇。

设计的数模转换芯片、测试电路及实测结果

1.高速分布反馈半导体激光器及其集成光源

本学部历时近20年,研制出高速、低成本的 DFB 激光器及其集成光源并与合作企业一起实现了产业化。成果于 2011 年通过了教育部科技成果鉴定,鉴定委员会认为“研究成果水平已达国际领先”。成果在数字光纤通信网络中得到广泛应用,近三年合作企业累计为海内外提供了超过 110 万套高速光源器件,新增销售额超过7.5亿元,有力地促进了我国高端光电子芯片产业的自主创新发展。本学部成员(排名第一、第二)与企业合作获得 2011 年中国电子学会电子信息科学技术一等奖,以及 2012 年度国家技术发明二等奖。

干线光通信用40 Gb/s高速集成光源。(a) 激光器和调制器共用同一外延层的增益耦合集成光源芯片结构;(b) 40 Gb/s 高速集成光源模块;(c) 40 Gb/s 高速集成光源模块100km传输实测眼图;(d)国家技术发明二等奖获奖证书

2.面向半导体照明的GaN基蓝绿光LED及其产业化

率先提出了在具有二维高低起伏结构的图形化衬底上外延LED 材料的技术方案(中国发明专利:ZL.X);提出了新型量子阱结构以抑制压电极化效应,提高内量子效率和稳定发光波长;利用图形衬底表面的台阶发展了无掩膜的GaN侧向外延技术,GaN材料的位错密度降低至107 cm?2,且LED的出光效率相比传统的平面衬底提高了20%以上;通过优化生长条件,获得了具有陡峭界面的InGaN/GaN多量子阱,制成的LED芯片光谱特性是国际文献报道的最好水平。提出基于Cl2/Ar/BCl3的新刻蚀气体组合,并对刻蚀参数进行了系统优化,实现了大面积均匀、速率可控、表面光滑的GaN/AlGaN异质结材料的非选择性ICP刻蚀。与企业合作,实现了上述创新技术的产业化,推动了我国 LED 产业的发展,与合作企业共同获得了2011年国家科技进步二等奖。

GaN基LED芯片关键技术。(a) 二维蓝宝石图形衬底上的GaN材料外延;(b)高内量子效率量子阱结构;(c) 原子级平整ICP干法刻蚀技术;(d)国家科技进步二等奖获奖证书

3.基于光线行为调控的三维自由光学曲面构建及其在半导体照明中的应用

发明并研制出可同时实现光线调控(配光)、系统散热、直流最优化驱动的半导体照明光源架构;构建了一个三维自由光学曲面以非成像光学原理调控 LED 发出的光线走向,消除眩光和实现均匀的照度/亮度分布,同时仅用一个自由光学曲面就可将偏离理想点光源的 LED 扩展光源转换为可提供具有任意照度分布的半导体照明光源。基于这一方法,发明了包括“花生米”型光学结构在内的多种三维非对称自由光学曲面透镜,首次在实际道路应用,较传统路灯照度均匀性提高45%,且节能 60%。上述非成像光学方面的专利成果已成为东莞勤上光电股份有限公司的核心技术并促成其上市,形成了大型场馆照明、路灯等系列产品,实现销售收入 12.2亿元。专利产品在人民大会堂万人礼堂使用时,照明效果优于原卤钨灯且节能75%。获 2009 年广东省科学技术一等奖,2014年国家技术发明二等奖。

半导体照明应用技术。(a) 传统照明技术和早期半导体照明技术面临的问题;(b)具有矩形均匀照度分布的非成像光学自由曲面设计;(c)成果应用于深圳高速公路和人民大会堂;(d)国家技术发明二等奖获奖证书

4.高能效动态可重构计算及其系统芯片关键技术

率先突破了低存储与低通信代价的层次化配置策略、面向并行多任务的高效重构管理器、基于可调节双电压技术的低功耗可重构阵列设计、片上多级数据存储器缓存结构、支持阵列动态重构的可扩展配置信息结构,以及支持高效循环任务执行的二维可重构阵列架构等面向计算密集型应用的可重构处理器关键技术,围绕高能量效率和高灵活性两大类技术难题,成功研制了可重构运算单元阵列IP核-RPU(Reconfigurable

RPU架构(左),RPU IP核验证芯片CHAMELEON架构(中)和管芯照片(右)TSMC 65nm LP1P8M工艺流片,规模为540万门(注:存储器已经被折算成标准门),面积是16.7mm2,正常工作频率为200MHz

RPU IP核验证芯片的验证演示电路结构(左)和实物演示图 (右)

(注:该验证演示电路由8块RPU芯片和2块超大容量FPGA组成)

5.面向深度学习的Thinker系列人工智能芯片

面对移动计算设备对人工智能应用的迫切需求及对功耗的苛刻限制,研究和设计了可重构混合神经网络计算芯片-Thinker。该芯片针对神经网络容错性高、计算密度波动大、访存模式复杂等特点,提出了自适应多位宽计算、按需资源划分和片上数据复用等高能效技术。Thinker采用TSMC 65nm

面向通用神经网络计算、采用异构PE架构、支持CNN/FCN/RNN,及混合神经网络Thinker-I 深度学习芯片

面向极低功耗神经网络计算、采用负载感知的调度技术、支持低位宽量化与资源复用技术的Thinker-II 深度学习芯片

面向极低功耗语音应用技术、支持Always on 实时处理技术、支持语音识别和声纹识别技术的Thinker – S 深度学习芯片

6.面向通用计算的可重构芯片

面向通用计算领域,为满足加州大学伯克利分校提出的13类通用计算应用特征需求,攻克针对控制密集型应用的可重构阵列优化、多目标优化的可重构片上网络设计,以及基于优先级和负荷的硬件多线程派发和调度等关键技术,研发了一款可重构通用芯片-HReA,基于TSMC 65nm工艺设计流片,芯片规模1890万门,硅片面积4.83×3.93mm2。与ARM公司高端处理器Cortex A15相比,该芯片功耗降低22.1倍,能效提升16.2倍。

通用可重构计算芯片-HReA

7.桥梁结构监测无线传感网

基于电路、传感器以及软件系统等方面发明专利51项、软件著作权7项,研发了权威机构认证的23种无线传感器产品,节点时间同步技术达到了10?s级,发明了基于深度神经网络和桥梁结构力学参数统计分析的无结构模型的健康评估方法和渐进式在线程序更新技术,研发了桥梁监测云服务平台软件,建成世界上第一座大型和特大型桥梁的长期监测无线传感网系统,应用于特大型桥梁长期桥梁监测、大型桥梁国检、千余座桥梁日常巡检、“一带一路”项目和福州地铁监测,并已经推广应用到隧道、边坡、水电大坝、古建筑。获2016年度“中国公路学会科学技术一等奖”。以该技术为基础,本研究部于2013年10月成功创建了源清慧虹信息科技有限公司。

2012年建成的蓉湖大桥健康监测无线传感网

8.神经网络加速系统及软硬件协同设计技术

2015年在嵌入式FPGA平台上实现卷积神经网络,引入低比特和网络压缩技术,系统能量效率超越英伟达GPU平台,该成果发表于2016年FPGA会议,谷歌引用超过200次;在KU060 FPGA上实现了稀疏化语音识别引擎,相较于同级别的英伟达GPU处理速度快3倍,能效比高11.5倍,该成果获得FPGA 2017最佳论文,并已成功在Amazon AWS云实现部署。曾获2017年度“中国计算机学会科学技术奖技术发明一等奖”,中关村高聚工程-创新领军人才等。基于以上技术基础,本研究部于2016年3月成功创建了深鉴科技有限公司,2017年获得三星、赛灵思领投的A+轮4000万美元融资,估值超过1.5亿美元,成为国际领先的深度学习处理器及解决方案供应商。

在三维信息研究领域,提出了一种视差与估计置信渐进迭代理论的高精度全局立体匹配算法,在美国自然科学基金委、微软研究院、Middlebury大学等权威机构设立的双目立体匹配算法评测中排名第一(截止研究成果文章发表)。在姿态估计问题上,提出了区域集成神经网络的方法,在ICCV 2017的手部姿态估计挑战赛上三项任务分别取得了第2、3、4名的成绩,在国内该领域研究中排名第一。将成果应用到液体食品在线质量检测中,相关产品已应用于可口可乐、统一企业、雀巢和达能等各大国内外企业,并已出口到日本、菲律宾等国家,目前共推广应用了两百余台套,累计为用户创造经济效益约3.2亿元。研究成果发表SCI文章46篇,EI文章77篇,发明专利公开近30项,发明专利授权19项,实用新型专利授权5项,于2014年获中国人工智能学会“吴文俊”科技进步一等奖、山东省科技进步二等奖。

基于神经网络的人工智能近年取得了突破性进展,正在深刻改变人类的生产和生活方式,是世界各国争相发展的战略制高点。

神经网络作为实现人工智能任务的有效算法之一,已经在各种应用场景获得广泛的应用。从云端到移动端,不同应用场景也对神经网络的计算能力提出了不同的需求。

神经网络的广泛应用离不开核心计算芯片。目前的主流通用计算平台包括 CPU 和 GPU,存在着能效较低的问题(能效即能量效率,是性能与功耗的比值)。为了获得更高的能效,我们需要设计一种专用的神经网络计算芯片来满足要求。国际IT巨头,如英特尔、谷歌、IBM,都在竞相研发神经网络计算芯片。

然而,神经网络的结构多样、数据量大、计算量大的特点,给硬件设计带来了巨大挑战。因此,在设计面向神经网络的高性能、高能效硬件架构时,我们需要思考清楚以下三个问题:

  • 好的计算模式应该是怎样的?
  • 为了支持这样的计算模式,架构应该怎样设计?
  • 已经实现的硬件架构,针对具体算法和应用需求,如何配置成最优的计算模式?

雷锋网本期公开课特邀请到清华大学微纳电子系四年级博士生涂锋斌,为我们分享神经网络硬件架构的设计经验。他将通过介绍其设计的可重构神经网络计算架构 DNA (Deep Neural Architecture),与大家分享在设计神经网络硬件架构时需要思考的问题。他在完成设计的同时,解决了这些问题,并对现有的硬件优化技术做出了总结。

本文根据雷锋网硬创公开课演讲原文整理,并邀请了涂锋斌进行确认,在此感谢。由于全文篇幅过长,分(上)(下)两部分。

讲完了计算模式的优化,我们接下来针对硬件架构设计给大家做一些分享。

我们研究工作的核心主要集中在计算模式的优化上面,而硬件架构本身其实更多的是如何去配合好的计算模式。

如图所示,这是 DNA 架构的一个整体的框架图。DNA 的全称是 「Deep Neural Architecture」,它的整体架构和我们之前提到的硬件架构模型是类似的,当然在具体的细节上就是会有一些参数,还有一些数据、通路上会做一些细致的一些策划。值得一提的就是说我们的计算核心内部有两个计算引擎,共享同一个同一块局部输入寄存器,但有各自的输出寄存器,而架构主要有三个特点:

  • 针对网络各层的配置信息 架构在片上会存储一些针对网络各层的配置信息(Configuration Context),存储在控制器内部(蓝色虚框)
  • 可重构的数据通路 即从 Output Buffer 反馈回 Output REGs 的通路(红线)是可重构的。此外,整体的输入数据通路也是可重构的形态。 另外在 CE 内部,它也会有一些可重构的数据通路,我们之后会展开。
  • 我们的设计中必须要考虑的一点,在于我们必须承认,对现有的这些深度神经网络而言,它的计算量数据量非常大,以致无法在片上完整地存储整个网络的数据和权重,所以在计算过程中,我们不得不与外部的存储进行频繁地访问。为了在计算过程中对存储器的访问不影响这些计算的性能,使得计算单元一直处于工作状态,我们需要对于每一块的这些存储进行一个「Ping-Pong」Buffer 的缓存设计,意思就是说在当前 Buffer 在工作的时候,它的另一块 Buffer 在外面保留数据,使得我当前 Buffer 用完的时候,下一次需要用到的数据也准备好了。

此外,我们对 CE 内部(Convolution Engine)内部做了一些额外的设计——4 级 CE 结构,这里提一些主要的概念。我做了一个空间上的展开图。

  • 第一个层次叫做输入寄存器级(Input REG Level),对应的是 CE 内部的局部输入寄存器;
  • 第二个级别叫数据传输级别,或称数据共享级(Data Sharing Level)。它主要是进行数据通路的重构,以支持我们刚刚提到的并行卷积映射方法,是很重要的一个部分。
  • 第三部分就是最核心的计算机,即 MAC 级(MAC Level),MAC 就是乘加单元的意思,就是最核心计算以一个 16×16 的阵列实现。
  • 第四级就是和输入级对应的输出寄存器级。

而我们前面也提到,CE 是由很多个 PE 构成的,那么此处 CE 的第二至第四层这三个级别,他们对应的是 PE 的三个级别,实际上 PE 也是一个三级的结构,和 CE 结构是对应的,比如对于一个 CE 来说,总共有 16 个 PE,所对应的就是 16 个 Map 和 16 个数据传输级的寄存器,从数值上我们也可以看到它的对应,具体就不多展开了。

采用了并行卷积映射方法的时候,如何共享所使用的输入数据呢?我们设计了一个数据传输网络(Data Sharing Network,DSN)。这三个图分别对应的是 16×16、8×8 和 4×4 的网络,以不同的块和尺寸来进行数据的传输,传输的方向主要有三个,包括从左往右的横向、从上往下的纵向、以及斜 45 度角的从左上往右下的斜向,以相邻的数据块进行数据的传递。

我们这里以步长为 2 且使用 DSN0 的一个案例简单看一看。我们之前说到,对于步长为 2 的情况,并行计算四张 Map,而每张 Map 的数据其实是复用的。具体来说,红色小块代表的是 Map0 的第一个点,它所收集到的输入数据是可以直接共享给它相邻的三个(绿色、紫色和蓝色)的三张 map 上面的,而它们只需要直接从红色小块上的 PE 上获取各自所需要的数据,并不需要从外部导进来。这样的话,其实从一定程度上减少了访存的次数。

有了一个架构之后,我们需要有一套的工作流程去指导怎么使用它。

我们的主要工作流程主要分为两个阶段,一个是编译阶段,第二个是执行阶段。

我们需要输入神经网络的一些参数,以及硬件的约束,比如 Buffer 的容量,还有计算资源的个数等描述硬件架构的一个参数,一旦硬件架构设计好后,这些参数是可以提出来的;

在我们的编译框架里面,需要对网络的每一层逐一地进行调度,并执行一个调度框架,它内部其实是在解决一个优化问题,优化问题是什么?

用户可以设定是要优先优化性能还是优先优化能效,或者优化两个目标,而它的约束条件就是我们硬件上的一些参数,比如说我缓存的需求不能超过片上的缓存大小等,这些都可以通过一个约束条件进行约束。通过执行一个调度框架,我们可以得到每一层的调度结果,分别由数据复用模式和卷积映射方式构成,并用一些参数化形式表达。

对神经网络的每一层进行这样调度,我们就得到每层的一个调度表,从而生成目标神经网络的配置信息,这时候我们就可以进入执行阶段,配置信息会放入到主处理器里。

在执行过程当中,大家看左边大的矩形就是我们的 DNA 架构,它会不断地从处理中读取配置信息,随后会根据需求从片外的 DRAM 里读取数据和权重,在片上进行神经网络的计算,在计算过程中因为片上存储有限,它会将数据再写出到片外的 DRAM,这个过程是不断的迭代,就以图中 1234 的次序进行迭代,以完成整个神经网络一个计算,这是我们所说的逐层加速的一个策略。

我们在这里简单地展示了 AlexNet 的网络在 DNA 架构上的一个调度结果。

图上呈现的是神经网络的每一个层,这里其实既包括卷积层,也包括全连接层;采用了数据复用模式与卷积映射方法。从参数中我们可以看到,对 AlexNet 的不同的层,它有不同的调度结果,这其实也是符合我们预期的。

到目前为止,我们已经讲完了基本的计算模式和架构设计,接下来我们就看一看一些实验结果。

这是 DNA 架构的实现结果图,图上每个模块也标出了对应的区域,右边是主要的一些参数,我们使用的是 TSMC 65nm LP,面积是 4.0×4.0 平方毫米,片上的 Buffer 容量是 280KB,在 220MHz 的工作频率下,控制性能达到了 204.8 GOPS,而平均的性能是 194.4 GOPS,平均功耗是 479mW,需要注意的是,这里的功耗指的只是架构芯片设计的功耗;架构内部的数据宽度(Precision),它是 16 Bit 的定点宽度。

我们直接看一下结果。我们使用的是 AlexNet、VGG、GoogLeNet 与 ResNet 这四个非常经典的卷积神经网络,这两个图分别展示了总能耗降低及 PE 利用率提升的情况:

  • 总能耗的降低达到了 5.9 到 8.4 倍,这是一个比较大的一个提升,
  • 计算资源利用率平均提升了 3.4 倍。而平均的利用率是达到 93%,这是非常高的一个值。

与顶尖工作比较(AlexNet)

除了方法上的比较,我们还和目前顶尖的这些工作进行了一些比较,这主要和英伟达的 K40,还有 FPGA'15、ISSCC'16 等非常经典的神经网络架构的文章进行一些比较,具体的话不进行过多展开。

这张表展现的是 AlexNet 上的一些具体分析结果,大家主要看一些参数。

第一个是计算资源利用率,我们评估了一下,在 FPGA'15、ISSCC'16 的工作上,计算资源利用率大约只有 68%,而用 DNA 架构,可以获得 88% 的一个计算资源利用率,达到 1.3 倍的提升,还是个比较大的一个提升。

另外值得提的一点是,我们的能效是 FPGA'15 的 44.6 倍,是 ISSCC'16 的 1.8 倍。大家看名字也能知道,前者是在 FPGA 上实现的,而后者是在 ASIC 上实现的。

特别强调一点,我们这里比较的能效是系统能效。大家通常喜欢比较的是纯芯片的内部能效,不考虑片外存储,其实并不是特别公平。

我们在评估芯片本身的能耗以外,还评估了片外 DRAM 的能耗,综合起来我们称之为系统能效,我们认为这样的比较是相对合理的。在这种比较下,我们获得的能效提升也是非常好的。

最后,我们与更多的一些工作进行比较。这一张表格里有展现出来,我们直接看结论。

我们的 DNA 架构,它的系统级能效比 CPU 提高了三个数量级,比 GPU 高两个数量级,比 FPGA 高一个数量级,基本上达到我们的设计需求。

基于 DNA 架构,我们完成了一款 Thinker 芯片,这是一款可重构的神经网络计算芯片。左边是芯片的照片,右边是我们搭的芯片 demo 演示图,相关的成果已经发表了数篇的顶级会议文章和权威期刊文章。

值得一提的是,我们在今年 ISSCC(该领域的顶级会议)上作了 poster 的展示。

此外,这款芯片作为清华的杰出的代表性工作,参加了 2016 年的全国双创周展览,获得李克强总理的高度赞许。李总理表示,希望 Thinker 芯片尽快拓展应用领域,实现规模化生产,实现芯片行业的自主创新。这是一个非常高的评价,我们会继续努力,实现总理对我们的期望。

首先回到最开始提出的三个问题,我们对这三个问题都做了非常好的解决。

  • 好的计算模式是怎么样的? 首先它需要具备一个混合的数据复用模式,另外还需要一个并行的卷积映射方法降低总能耗,以提升计算资源利用率。
  • 为了支持这样的计算模式,架构应该怎么设计? 我们设计了一款可重构的神经网络计算架构 DNA,它具有可重复的数据传输通路和计算引擎。 我们对针对计算模式做了一个很好的架构设计,相比 CPU、GPU 和 FPGA 都有多个数量级的系统级能效提升。
  • 已经实现的架构,针对具体算法和应用需求,如何配置成最优的计算模式? 我们设计了一个基于网络层的调度框架,配合架构的使用,将调度问题转化成一个优化问题。这样一来,针对任意的网络,其他的架构也可以使用我们的调度框架,将调度问题转换成优化问题,配置成用户想要的最优计算模式。

最后我们对现有的优化技术做一些思考。

最开始我们在分析的时候提出了两个主要公式,分别对能耗和性能进行评估。这两个公式其实是一个非常好的一个描述,或者说建模的分析方法。

我们也对近几年出现在顶级会议和权威期刊上,针对神经网络硬件架构所使用的硬件优化技术以及算法优化技术进行了整理。

  • 计算模式优化 第一类就是其实是和我们这份工作很相关的,就是计算模式方面的优化。它主要优化的是什么?它通过降低访存次数来以及提高计算资源的利用率来实现能效、能耗和性能的优化。
  • 模型压缩、降低数据精度及二值化 这些技术主要能够降低单位 DRAM 和 Buffer 访问的能耗以及单位计算的能耗。
  • 非易失存储器 第三类是在学术界非常流行的非易失存储器,简称 NVRAM,将这种新型的存储器应用到我们的架构设计当中。NVRAM 具有一个非易失的特点,然后它的通常它的功耗是很低的,可以降低单位存储访问的能耗;有的工作,比如说使用 NVRAM 进行乘加计算阵列的构建,甚至可以降低单位计算能耗。
  • 稀疏化 无论是算法还是硬件,稀疏化是大家目前都非常关注的一个特点。不管是数据还是权重,神经网络其实有大量的零以及接近零的数值,我们通过人为的一些控制,使得数据里面出现更多的零,这样我们可以减少从存储器中访问数据的次数,甚至可以降低操作数,因为如果是零的话,我可以不做计算,因为零乘以任何数都是零。 神经网络的基本计算就是零,所以稀疏化的好处就是可以降低访问次数和操作次数,对于能效的好处是非常明显的。
  • 动态电压频率调节 动态电压频率调节简称 DVFS,它是一个非常经典的、大家很常用的电路技术。我们可以通过降低电压和频率,来降低单位访存和计算能耗。如果我希望获得很高的性能,我可以通过提升电压以提升频率,来获得更好的性能。

我们可以发现,目前现有的这些优化技术,其实都对应我们对性能或者能效的设计或优化的需求。

通过对现有这些技术的分析,也可以启发我们所做的事情。比如说,我们如果想用新的技术,可以回顾一下这两个公式,是否真的有效,是否解决了关键的问题?这其实是我很想分享给大家的观点。

这里有我的一些联系方式,包括个人主页、知乎专栏,电子邮箱等,欢迎大家与我联系。

我在维护的 GitHub 项目名为「Neural Networks on Silicon」,因为我们领域近几年呈现爆发式的发展,有大量新的工作出现,我在 GitHub 上做了一个小小的项目,整理了一下近两年出现在这个领域顶级会议上的一些论文,也会对部分有意思的工作做一些评论。大家有兴趣的话可以看一看。其实这也是一个蛮好的整理,但因为现在的工作实在太多了,大家也可以帮助我一起整理。

这页 PPT 上呈现了刚刚涉及到的一些重要参考文献。

好,谢谢大家,现在进入提问环节。

1. 你们的工作和国内外神经形态芯片相比(非加速器),有哪些优势?

我简单介绍一下,我们的神经网络硬件芯片这一块主要有两个流派,一块是神经网络加速器范畴,另外一个是神经形态芯片,英文叫做 neuromorphic chip. 而我们的工作属于神经网络加速器的范畴,而题主提到的神经形态芯片属于另外一类芯片,以 IBM 的 TrueNorth 为代表。那么二者的主要区别是什么?

它们主要是算法原型不一样。前者或者说我们的工作主要针对的是人工神经网络,特别是强调就是当前非常流行的,以深度学习为代表的神经网络,而后者的算法模型是我们称之为叫脉冲神经网络,英文叫做 spiking neural network。

在脉冲神经网络的网络里面,数据以脉冲信号的形式进行信号信息的传输,这样一种网络,或者说这样的计算方法,其实更接近我们最开始提到的生物上的什么样的模型,

首先,二者因为目标算法不一样,所以不好直接比较性能和功耗,如果你看到一些直接比较功耗的工作话,我觉得并不是特别公平,因为连目标算法都不一样,设计的目的也不一样。我们做科研非常讲究公平比较,为了更公平的比较,其实硬件层面其实并不是很好的一个比较方式,比如从算法层面来比较深入学习和脉冲神经网络。当前的主流观点是前者的精度更高(识别人脸),而后者因为更具备生物上的一些特点,在能效上更有优势。

我个人的观点是:就目前而言,深度学习几乎统治了模式识别的各个应用领域,是当下更好的一种选择,但是科学是螺旋式发展的,深度学习不可能永远地统治下去,我觉得也应该不会是人工智能的最终形态。

脉冲神经网络,其实代表的是科学探索的一个方向,但我觉得也并不是唯一的方向。如果关注人工智能这块的话,我们其实会看到有很多其他的方向也在展开,比如说量子计算。

人工智能的最终形态并不一定是制造一个人的大脑,或者人脑。关键在于是否能够解决问题,比如说我们要识别人脸,什么样的算法才是好的算法,那么怎样的算法才能解决问题,这才是关键。而它具体的形态并不是我们特别关心的,这里有个比较恰当的例子分享给大家,好比人要飞翔,其实并不需要有一个鸟一样的心态,历史上已经证明过,很多人制造了翅膀也飞不上去,其实我们只要造一架飞机就够了,甚至我们还能飞上天空甚至飞出银河系。我们不在乎形态是怎样,关键是要能够解决问题。

2. 你们在第二代架构在设计上有哪些构想?

这位同学应该是看了我知乎专栏上的一些文章。其实刚刚有提到,现在有一些比较大家常用的一些技术,就像稀疏化等,其实在我们的二代架构设计当中已经有一些考虑。基本上不能说有多大创新,但我们都会考虑进来。

这是我们现在在做的一些工作,主要想解决大家真正在用神经网络硬件架构的时候会遇到的一些实际的问题,如果有新的成果发表出来,也会及时地分享给大家。

3. 芯片只针对推断进行优化吗?推断其实就是前向计算的过程,没有包括训练的过程吗?

在第一代神经网络芯片 Thinker 上,我们主要只针对正向计算做了优化,如果大家对训练过程比较了解的话,其实训练的过程当中有大量的正向计算的过程,当然它还包含了一个反向的误差传播的过程,在我们第一代芯片当中没有考虑误差传播的过程,我们已经在做一些相关的工作,如果做出来之后会及时地和大家分享一下我们的一些想法。

4. 如何看待「芯片+人工智能」这样一种模式?

我简单讲讲吧,大家从新闻上已经能看到很多报道,说人工智能时代到来了,其实人工智能或者这个概念,我觉得更多是媒体在为了宣传的方便,所以靠一个很好的帽子,也更方便大家理解。

其实我们刚才也提到,大家经常说到人工智能,其实它背后有更多的内容,比如深度学习、机器学习等,深度学习本质上就是神经网络,只是经过很多年的扩展之后或者说发展之后,成为现在的样子。

那么人工智能硬件或者说芯片,简单来说叫做智能硬件。它在未来就是一定会代替人做很多事情,这是未来的一个发展趋势。随着生活智能化,未来的智能硬件会越来越多,会代替人做很多事情。比方工厂里使用一些机械臂,或者说一些生产线上的工具,可以代替人做体力劳动。

智能硬件在未来,肯定会代替人去做一些稍微低级点的智力劳动。人的伟大,其实是在于创造工具、使用工具,我们会制造越来越多的智能工具,替代我们做很多我们不想做的事情或者说反复的事情,让我们用有限的精力去做更多的、更高层次的一些智能任务吧。所以我觉得「人工智能+芯片」或者说智能硬件的一个模式在未来肯定是会一直发展下去的,是不会变的。

我谈一点自己的见解,GPU、FPGA、ASIC 是当下智能硬件,或者说人工智能芯片的三个极点。GPU 可以认为是偏向通用的一类硬件,然后 ASIC 是相对专用的一种硬件,而 ASIC 是介于二者之间的一种硬件,它们各有千秋,然后各有所长。当前 GPU 广泛地应用于训练过程或者说大量数据的训练。FPGA 可以根据应用的需求非常适应性的去改变配置,把不同的算法烧进去,完成不同的功能。

狭义上的 ASIC,可以具体的某一种应用,或者说比方说做一款芯片来专门实现人脸识别。大家可以看到,我们刚刚介绍的基于 DNA 架构的 Thinker 芯片,其实是一种可重构的 ASIC,这种结构叫做 CGRA(Coarse Grained Reconfigurable Architecture),它其实有点像 FPGA,它可以重构配置来支持不同的算法。我们可以支持任意网络规模、任意参数的神经网络,它的好处是我们采用大量粗粒度的 PE 形式的计算资源,使之能够快速地、高效地、在线地配置计算资源的形态来支持不同算法。

其实我个人觉得,针对未来可能会发展成一种融合的形态,不知道大家有没有注意到,英伟达最新发布的 V100 其实是有 Tensor Core 的,因此我觉得未来的通用计算可以处理很多复杂的控制或者逻辑等。

而一些很关键的计算,比方说神经网络里面的神经元计算,或者说一些核心的计算,会做成一些专用的 ASIC、可配置的核,放入通用的一个处理器如 CPU 和 GPU,甚至是 FPGA 里面。其实这就是融合的一种思想。

此外 CPU 通常用于训练一个过程,有很多实际的应用场景,或者说我们刚才提到云端与移动端,移动端的话有大量的低功耗的需求,此时用 CPU 平台就显得不是那么合适,所以说其实我外部的控制逻辑可以稍微简单一点,像我们用到的我们设计的这款可重构的芯片就可以直接运用到其中。

对于神经网络的应用来说,它其实是有一定通用性的,所以在移动端,它其实有很大的潜力,作为一个处理的核心来做神经网络计算,来实现如图像识别或者语音识别的任务。

今天的公开课就到此结束了,非常感谢大家来收听和观看雷锋网的硬创公开课。我和我们组也会继续做神经网络硬件架构的一些研究,刚刚跟大家分享的也是我们过去一些研究的成果和思考。我们现在也在做一些非常有意思的研究,也欢迎大家跟我们交流,如果有一些新的成果,我也会及时和大家分享,今天的公开课就到此结束,谢谢大家,再见。

我要回帖

更多关于 cpu性能优化 的文章

 

随机推荐