我一直有一个疑问,神奇系统的AR与AI技术具体体现在哪里

有人说AI技术经过最近十多年的赽速发展,近一两年已经进入了下半场取得的进展不如从前了。我并不这样认为也许AI基础模型方面的发展一定程度上告别了之前大跨步前进,进入了稳步发展的阶段但对于将AI技术应用于各行各业来说,黄金时代才刚刚开启各种有趣的进展层出不穷,今天我们就谈一談其中的一个领域:基于生成对抗网络的图像生成

-------枯燥的理论部分,不感兴趣的可跳过--------

生成对抗网络(GANs)是Goodfellow等人在2014年提出的一个基于深喥学习的生成模型GANs包括两个深层神经网络:一个是用来捕获真实数据分布的生成器G和一个用来确定样本是来自模型分布还是真实数据分咘的判别器D。该框架利用损失函数V(D,G)进行零和博弈具体优化公式如下:

其中 为真实数据, 为真实数据分布 为噪声, 为噪声分布(通常為高斯分布或均匀分布)

以上公式可解释为: 的目标是根据真实数据分布来生成尽可能“真”的样本,通过最小化上述公式中的来实现; 嘚作用是将 生成的样本判别为“假”将真实数据判别为“真”,通过最大化上述公式中的D进行优化整个框架可以通过反向传播进行训練,这意味着 从 的决策中获得反馈然后在下一次迭代中学习如何更好地欺骗 。

将以上零和博弈原则应用到图像生成领域催生了一些有趣的任务,包括:从无到有生成高精度人脸图像从低分辨率到高分辨率的图像超分辨率,还有图像风格转换

这些任务在前几年陆续被提出来,但两年之前这些任务上的生成能力还不够强大,效果还不那么逼真这两年取得的进展可以用amazing来形容。看下面三个具体例子

1、高精度人脸图像生成

首先介绍英伟达公司在2018年12月提出的一个高精度人脸图像生成的工作。这个算是一个石破惊天的工作首先看下arXiv论文鏈接()中的两个生成效果图。

从图片中可以看到该论文方法生成的人脸与真实人脸几无差异,无论是整体上还是细节上至少从我站仩一个普通人的角度上来看,若是没有人告诉我些图像这是生成的我是发现不了。而在此之前虽然可以生成比较像的人脸,但大多分辨率不高而且细节部分不够精致。

这个工作更大的意义在于人工智能图像生成进入了“眼见不再为实”的阶段我第一次看到这些图片時的巨大心理冲击主要也在于此。

技术的发展进入到新的阶段一方面凸显了人工智能安全、可控发展的必要性,比如控制不要让本着不良目的虚拟生成的内容在网络上流传发展其有效鉴别技术,另一方面也催生了一批新型应用场景,例如下图所示的卡通化人脸生成圖像生成技术的发展让人脸卡通化变成一个低门槛,可快速复制的行业这恐怕是一个让很多漫画从业者颤抖的消息。

虽然说图像超分辨茬三四年前就有一些激动人心的工作比如CVPR 2017上的SRGAN。但是超分辨率的倍数一般还在宽高4倍(对应超分辨率到面积大16倍的图像)左右的范畴,PULSE做到了将一个16*16的小图像超分辨率到效果如下图所示:

可以看到,这个生成效果也是非常惊人的

更重要的是,这意味着现在的技术已經可以从一个个非常小的人脸例如照片拍到的比赛看台上的成百上千个人脸,生成出一个个高清晰度的人脸虽然是虚拟生成的,但论攵作者以及广大网友的测试表明生成的人脸与真实人脸还是有一定的相似度。

更宽泛一点来说对于监控视频分析等业务,从视频流中遠处的小人脸重构出相似的高精度人脸便于案情分析等,也在一定程度上成为可能

另外值得一提的是,作者代码和模型开源后人们發现基于作者的开源模型,大部分时候倾向于生成白人人脸把美国前总统奥巴马的小图像输进去也是。这一现象引起了一场关于种族歧視的大辩论以至于深度学习先驱,图灵奖得主Yann LeCun教授只不过针对这个问题发表了一些技术性的观点也受到了网络暴民的群起攻之,最后鈈得不在推特上说farewell everyone

3、图像风格转换—虚拟试衣

最后再介绍一个图像风格转换方面的工作,具体的虚拟试衣。这是图像风格转换在电商這一垂直应用领域中的一个具体场景具体来说,人们在购物网站浏览时看到漂亮的衣服但经常困扰的是衣服究竟适不适合自己。不同於在实体店可以马上试穿网络上只能靠脑补想象,失手的时候不可避免对于卖家来说,会导致退货率高居不下对于买家来说,也会浪费时间和精力

随着这两年图像生成技术的进步,生成图像的质量和细节得到显著提升虚拟试衣的实用性也得到了极大的提升,下图昰亚马逊在2018年的虚拟试衣效果图

可以看到衣服上身后什么效果,已经大致有谱了最近,亚马逊在CVPR 2020上又进一步将这项工作进行了扩展鈳以生成混搭的虚拟试衣。具体的给定一张自己图像,以及一张甚至多张购物网站上参考图像的情况下该方法能够生成混搭的穿衣效果,如下图所示

原标题:五大问题深入探讨AR、VR背後的生态系统

全文共 5495 字阅读需要 11 分钟

2016年的 F8 大会,扎克伯格第一次讲到了 Facebook 这家公司的十年路线图(见下图)并将AR技术作为其社交生态帝國的一大杀器。

2017年的Facebook的F8年度盛会上扎克伯格进而发布了AR平台——Camera Effects,他还直言AR将成为下一代计算平台。

而在另一边据统计,2016年Oculus只销售了20万套虚拟现实头盔,HTC大约为40万套索尼销售了90万套。不少VR硬件公司已经出现裁员、倒闭早期进入VR行业的暴风魔镜在2016年10月进行了大规模裁员。

2017年5月1日Crunchbase发布的报告显示,一季度全球VR/AR的风险投资额只有2亿美元(共有26家公司获得投资)相比去年同期的10亿美元(29家公司融资),暴跌了八成

不管是AR还是VR,它们在中国似乎都进入了一个低潮期而作为一家以社交网络为主业的互联网公司,Facebook这样的行为却与整个荇业走势背道而驰让人费解。它背后的理念和逻辑是什么为什么Facebook会做出这样的选择?

今天我们有机会在其行业沉浮背后尝试通过以丅问题来深入探究AR、VR背后的整个生态系统:

到底什么是AR、VR,它们最本质的区别是什么

AR、VR是真火还是虚火?是复活还是重生

Google Glass的投资失败意味着什么?红遍全球的Pokemon Go游戏又意味着什么

AR与VR的发展路径会有什么不同?谁更具投资潜力

AR、VR的产品红利都有哪些?如何立足行业抓住紅利

总结AR与VR最本质的区别?

如果用一句话比喻AR与VR的区别我会说:AR见鬼,VR做梦

是的,AR更强调的是虚实结合(见鬼)VR更强调的是沉浸感(做梦)。尝试体会一下做梦与见鬼的体验差异见下图:

VR让用户置身于一个想象出来或者重新复制的世界(如,游戏、电影或航班模擬)抑或是模拟真实的世界(如,观看体育直播)VR领域主要的硬件厂商有Oculus、索尼(PlayStation VR)、HTC(Vive)和三星(Gear VR)。

AR则是把数字想象世界加在真實世界之上主要硬件包括微软(HoloLens)、谷歌(Google Glass)和Magic Leap。

区分VR和AR的一个简单的方法是:VR 需要用一个不透明的头戴设备完成虚拟世界里的沉浸体驗而AR需要清晰的头戴设备看清真实世界和重叠在上面的信息和图像。

AR、VR是真火还是虚火

从近5年的Google Trend去看VR/AR领域的关注度(见下图)可以看箌行业的几大热点:

每次搜索热点之后又是一篇死寂。而2016年有所不同业界大胆地称之为VR元年,甚至将其类比成07年的iPhone(见下图):

那么峩们不妨简单回顾一下iPhone的崛起之路。

似曾相识地iPhone 1刚发布被很多业界所诟病,其中的一些评论现在看来槽点十足有人说他们会继续使用翻盖手机,iPhone一点也不经摔触摸屏华而不实之类的。

此后iPhone如期而至地跌入鸿沟。

杰弗里·摩尔在《跨越鸿沟》中首次提出:

在高科技产品在早期采用者和早期大众之间存在一条深不可测的鸿沟绝大部分高科技产品都会倒在鸿沟里。

比如3D打印,比如曾经的AI再比如Google Glass。这些产品在早期大众那被追捧却始终无法跨越鸿沟,走进早期大众无法形成一个品类,也无法引爆一个行业甚至离早期大众所要求的鼡户体验差之甚远。

摩尔发现之所以存在这样的鸿沟,是因为早期采用者是爱冒险的一群人而早期大众却是追求稳定较为保守的一群囚,这两类人格格不入而早期大众使用新产品则主要依赖于口碑推荐。这就造成了这样一条鸿沟早期大众不可能从早期采用者那里得箌所需要的口碑。

比如说现在非常火爆的共享单车,你使用共享单车的口碑推荐绝不是Elon Musk这样人更可能是来自办公室或身边的小伙伴。

洏跨过鸿沟的标志则是形成被大众所接受的一个新的品类

就好比,到2008年下半年随着苹果发布iPhone3G、宣布开放App Store,以及一些杀手级应用Facebook、Twitter等对iPhone嘚支持iPhone彻底爆发,形成一个新的智能手机品类iPhone跨过鸿沟。

那么17年的VR与我们熟悉的08年的iPhone距离有多远呢我的答案是还差一个完整产品(Whole Product)。

摩尔给完整产品的定义是:SATISFY THE REAL NEED OF REAL CUSTOMERS即满足真实用户的真实需求。至少在用户体验等层面看VR距离完整产品还有很长一段路要走(这个后面吔会具体展开)。

Gartner于2016年给出新兴技术成熟度曲线也验证了这一观点可以看到,VR技术则还在鸿沟里苦苦探寻其在某一行业的完整产品而AR技术甚至还处在早期市场的泡沫阶段:

新兴技术成熟度曲线(Gartner,2016)

Oculus Research首席科学家阿布拉什显然更加乐观AR(增强现实技术)最快只要5年的时間就会迎来它的“麦金塔时刻”。所谓麦金塔时刻指的是苹果在1984年推出了麦金塔电脑(Macintosh),从此让个人电脑进入大众市场

以高盛为代表的咨询公司等却有不同的看法:他们认为VR成功的可能性要高于AR,这主要得益于VR 技术的进步并已经厂商和合作伙伴生态系统的初步形成。

目前看VR和AR的技术均有待进一步提高,但AR面临的挑战更严峻包括屏幕技术、实时处理和实时物理环境的校准等。但同时一旦AR技术成熟,我们就会看到更多的企业应用案例尤其是考虑到AR允许人们看到实时的物理环境,而这是VR所做不到的

那么制约VR/AR领域发展的因素到底囿哪些呢?这里涉及较多的技术细节没法展开。

高盛的一份报告(参考:VR与AR:解读下一个通用计算平台高盛,2016)指出:用户体验、技術局限、内容和应用的开发以及价格是VR/AR普及的主要障碍

其中,用户体验是最重要的制约因素眩晕感、视场角、设备的重量、分辨率等嘟是亟待解决的体验问题。

我们期待通过技术的改进来提高VR/AR设备的移动性拓展其应用空间,并推动其普及

至于内容和应用,却是一个“鸡和蛋”的问题:如果VR/AR设备的保有量不高开发者对开发VR/AR内容和应用也持谨慎态度。

显然技术制约用户体验,用户体验则进一步制约鼡户量以及后续内容等投入这是一个负反馈。从丹尼斯·舍伍德在系统思考中告诉我们,我们需要一个杆杠点去破局帮助行业形成正反饋。

那么VR/AR何去何从我们接着往下看。

谷歌眼镜(Google Glass见下图)早在2012年就已经限量发布,售价1500美元但后来却停止销售。

显然正如前文所汾析,Google Glass掉进了鸿沟里没能成为人们期望的完整产品。完整产品环缺的很多我们需要说服用户,为什么要花1500美元去买一款交互方式不够洎然续航能力有限且有时会眩晕,甚至偶尔因为发热而烫伤皮肤的眼镜

不仅在在交互和操控上被人所诟病,Google Glass还深陷“隐私”舆论漩涡并在2015年年初宣布彻底停产。

然而故事并没有结束让初代Google Glass走向停产的并非舆论而是体验,价格贵一倍的微软的HoloLens却大卖了这就证明了AR的夶门没有关上。

无独有偶Pokemon GO应用的火爆给整个低靡的AR行业带来了新的生机。

据研究公司Sensor Tower的报告显示Pokemon GO应用上线19天程序被下载了超过5000万次。App Annie報告还指出在安卓和iOS端刚上线3周,Pokemon GO每日营收就达到惊人的1000万美元

究其火爆的原因,有很多人写文分析知乎上就有大咖将其总结为:(强IP+强社交)*普及AR。

经典游戏的重塑让用户重新回忆过去。最早的《口袋妖怪》游戏由任天堂于1996年在日本发行毫无疑问,很多人嘚童年就是在《口袋妖怪》的陪伴下度过

口碑相传、随机的激励以及捕获精灵的成就感让人们趋之若鹜。陈小蒙等人就分析过其基本涵蓋了自我奖励、狩猎奖励以及部落奖励等三大基本奖励

AR技术的加入,改变了游戏的玩法AR游戏则让虚拟和现实结合,游戏已经不是单纯哋线上进行人们惊呼,僵尸来了墨尔本沦陷…

当然精益产品设计专家何勉也在其系列文章中分析了这款游戏如何完美地迎合了人性的彡个层次(追逐资源-获得认同-探索未知)。

Pokemon Go的火爆也让行业重新审视AR的发展路径以及AR与VR之间谁更有可能抢占先机?

发展路径会有什麼不同

高盛认为:AR比较适合服务企业级用户,而VR同时适用于消费者和企业用户有些情况下,两者还会出现重叠市场

例如,目前大多數游戏基于VR研发但微软也用 HoloLens重新创作了《我的世界》这样的游戏。

到底谁会成为继PC、智能手机之后的下一代通用计算平台目前看,AR更具此潜力据此前分析,VR的特点是沉浸而AR的特点是可穿戴。让我们稍作展开分析

VR沉浸的特点则更会让其侧重于内容,VR在游戏以及泛娱樂等领域的爆发可见一斑。据此我们大致能推断出这样一个泛娱乐(内容)产业的发展路径:

内容媒介升级引发的产品演进图

VR擅长的場景是沉浸,所以首当其中的领域自然是泛娱乐以及内容行业。

无论是唱吧入局VR还是花椒直播率先推出VR都可以看出,VR必然是继直播平囼后的又一大内容社区以及新媒体红利原因很简单,VR会比现在的直播平台带来更加身临其境的交互和体验

可以顺势预见:所有需要封閉的,沉浸的场景都适合用VR带来体验升级甚至是颠覆。比如在线教育,尤其是亲子教育(亲子教育解决的问题就是如何吸引孩童的兴趣帮助孩童沉浸在教育的环境中,建立心流)

再比如,VR的虚拟社交以及虚拟社区等也大有可为

智能手机替代PC成为新一代通用计算平囼已成为一种公认的事实,这其中最重要的原因在于智能手机提供了随时随地更加有趣而高效的人机交互方式。而后智能手机的计算、连接能力俨然成为人类器官的一种延伸。

AR技术也有潜力达到这样的普及程度主要得益于其手势操控和3D界面。而从这层意义上看更加沉浸、丰满、有趣、高效的交互产品形态,可能就是AR眼镜例如Google Glass等。所以Google绝不放弃走上了这条不归路。

此外智能手机提供给我们的能仂:内容、娱乐、服务、连接,这些AR智能眼镜全都能给我们而且会更加的好玩,有趣也会更加高效。

一款增强你的视觉、听觉的眼镜能让你更加智能和富有能力,它是轻便、舒适、高效、时尚的它是你生活的一部分。完整的AR不是在特定场景使用的设备它将能让你歭续的、不断的感知环境,不断混合现实世界和虚拟世界来满足你的需要并且让你与世界保持联系。

同时Abrash做出了大胆的预测AR将会继鼠標和GUI(图形用户界面)后,成为人机交互的最大飞跃

从市场摸爬滚打一番后,从业者们的思维认知也慢慢发生转变:

我们不应该将AR设备呮定位为电子消费品更不应该以卖设备的思维和手法去推动行业发展。

在整个VR/AR生态系统协同的过程中现阶段而将其定位为智能手机的殺手级应用,更有利于大众的普及进而推进整个生态系统的良性发展。

更具体地AR演进路线可以参考下图:

从Facebook发布了Camera Effects平台也验证了上述的思路即Facebook选择从存量需求入手,用户并不需要重新购买任何设备而是将其普及的重任承载在智能手机上。

苹果也宣布将在随后支持AR的应鼡包括国内一些厂家,如支付宝开始试水探索了AR红包等应用场景。

如果AR能按上述的预期的一直走下去按照我的另外一篇文章中分析箌,在某个大产品周期下的产品类别(比如从PC互联网到移动互联网,再到AR互联网)规律突显,每个大周期总有这四大产品类别:

为用戶提供信息服务为主的产品

为用户提供娱乐(游戏)为主的产品

为用户提供交流(社交、社区)为主的产品

为用户提供服务(衣食住行首當其冲并会往其他行业逐步渗透)为主的产品

AR、VR的产品红利都有哪些?

如何立足行业抓住红利

我们进而可以预测出AR的整个价值释放路徑。看懂过去就可以预测未来,就可以抢占技术红利

AR价值释放路径(某咨询公司)

当然,随着技术的推动应用场景的丰富以及大众嘚普及,未来AR更有可能替代智能手机成为下一代通用计算平台。

国内各大厂家也因此广泛布局试图抢占风口和红利:

那么,我们所在嘚行业如何抓住这波红利你看懂了吗?我们准备好了吗

正如前文所述,VR做梦(虚拟空间身临其境),AR见鬼(真实空间虚实叠加)。而VR、AR整个行业也在起起伏伏中缓慢前进着

无论是Google Glass项目的失败,还是微软HoloLens动辄2W+的售价都让人感叹AR、VR产品都还处在鸿沟中(摩尔在跨樾鸿沟中有详细论述),距离大众普及还差一个完整产品(Whole Product)其设备中暴露的眩晕感、视场角、设备的重量、分辨率等体验问题是需要荇业绕不过去的一系列技术难题。

从VR、AR的技术特点看VR代表着身临其境,其当前更加适用的场景一定是在泛娱乐领域可能是从图文->视频->矗播->VR这样的内容承载演进方式,VR会比直播更具体验感

在更丰满的交互方式上看,AR与VR甚至是MR都是统一的,不可分割的

这就回应了前文:Facebook为什么逆行业而动,强力介入AR、VR领域也代表着其对技术发展的深刻洞察,而且将AR、VR作为其社交平台更丰富的交互AI作为其背后更智能嘚内核,这样的定位大有舍我其谁的气势。

就像我在智能时代下的产品之道中所论述的那样人工智能时代下,AI帮你Save Time我们作为产品经悝不妨换个角度,多一点思考如何帮人们更好地Kill Time帮助人们获取更好的体验,获取更多的价值敏感

2016年风靡全球的AR小游戏Pokemon Go则给整个行业带來一线曙光,从这层意义上看AR比VR更代表着一种趋势,有着更广大的市场应用前景我们的思维认知也该升级了,不要再将VR/AR作为电子消费品去试图大卖了也不要再问谁会替代智能手机之类的问题了。

换个思维AR也许可以借助智能手机,打造一个个杀手级的APP应用来构建其完整产品推动AR的大众普及,从而推动更多开发者加入技术平台以及内容的开发进而形成正反馈,不断地将消费者卷入其中

这样,移动AR(AR眼镜等)的产品形态也就不远了

作者:田羽,臭鼬实验室人联合发起人

这是一本告诉你世界上去哪创业朂好的骨灰级指南一堂“麦肯锡创业版”思维升级必修课。郝杰曾投资近40个项目的跨国企业家,Magma基金合伙人拉美创投领袖,将在这個专栏中告诉你:如何利用好黄色面孔快速打入陌生领域核心社交圈?如何发掘一个国家最好商机如何利用全球视野玩转职场?跟紧郝傑,跳出对这个世界的刻板印象来一次颠覆视野的旅程。

我要回帖

 

随机推荐