如果凤飞飞爱你在心口难开坐在你的东面,那么你坐在凤飞飞爱你在心口难开的西面是否正确

来自雪球&#xe6关注 【告别】李飞飞深情回顾ImageNet 8年:改变AI和世界的数据(PPT) 【新智元招聘】AI 盛夏,星舰启航。《新一代人工智能发展规划》发布之际,新智元也正式入驻融科资讯中心 B 座,整装待发。天时地利,星辰大海,我们召唤你——新船员的加入!COO、总编、主笔、内容运营、客户总监、客户经理、视觉总监(兼职) 7 大职位招聘全新启动。点击文末 阅读原文 查看详情。简历投递:jobs.com.cn
HR 微信:Dr-wly1 新智元专访
来源:QZ作者:Dave Gershgorn编译:闻菲 熊笑【新智元导读】今天,ImageNet 创始人李飞飞在 CVPR“超越 ILSVRC” workshop 介绍了最后一届 ImageNet。回顾过去 8 年,计算机视觉中一个最艰深的学术命题物体识别被攻克,神经网络和深度学习重新定义了人工智能的方法论。李飞飞在接受新智元采访时谈了这 8 年里她印象最深的两件事——在线众包平台 Amazon Mechanical Turk 的发现和深度学习的应用,前者令她意识到构建 ImageNet 大规模数据集的可行性,后者开启了深度学习乃至人工智能新的篇章。在 CVPR 会议期间,计算机视觉期刊
IJCV 举办了 IJCV Asia Night 学术主题活动,李飞飞作为当晚嘉宾,对一些曾给予她帮助的朋友和同事表示了真挚的感谢,其中包括 UC 伯克利教授 Jitendra Malik,李飞飞称他是在 CV 和 AI 方面对她启发最大的人之一;UCLA 终身教授朱松纯,李飞飞认为他在计算机视觉领域的思考和研究对她也有巨大的启发;中国工程院、中国科学院外籍院士黄煦涛,李飞飞在 UIUC 获得的第一份教授职位在很大程度上得到了他的提携;微软全球执行副总裁沈向洋,他在李飞飞去谷歌时给出了很好的建议;普林斯顿大学的李凯,他在李飞飞开始做 ImageNet 时给予了巨大的鼓励和支持。另外,李飞飞特别提到了,她一共有 23 个学生和博士后是亚洲血统,他们来自中国、印度、日本、韩国、伊朗等等。李飞飞特别对她的两个学生邓嘉和李佳表示了感谢。李飞飞引用了蜘蛛侠的名言“能力越大,责任越大”,指出人工智能工作者重任在肩。李飞飞同时指出,中国是世界上第一个发布人工智能白皮书的国家,领先于美国、英国和所有业界力量看到人工智能的潜能。李飞飞引用了现代哲学家 Shannon Vallor 的话作为她分享的结束语:机器没有独立的价值观,机器的价值观就是人类的价值观。如今看,ImageNet 及其竞赛的重要性已经不言而喻,但实际上,从更长的周期看,ImageNet 系列工作对计算机视觉、机器学习、人工智能乃至人类进步的影响都更为巨大——ImagNet 数据集让人们意识到,构建优良数据集的工作是 AI 研究的核心,数据和算法一样至关重要。ImageNet 开源开放的原则也代表了 AI 研究的根本,我们需要让所有人都参与开发更好的 AI 算法和模型。本文后附李飞飞今天在最后一届 ImageNet workshop 的演讲 PPT。2006 年,李飞飞开始反复思考一个问题。当时的李飞飞才刚刚在伊利诺伊大学香槟分校(UIUC)任教,她看到整个学界和工业界普遍流行一种想法,都在致力于打造更好的算法,认为更好的算法将带来更好的决策,不论数据如何。但李飞飞意识到了这样做的局限——即使是最好的算法,如果没有好的、能够反映真实世界的训练数据,也没办法用。李飞飞的解决方案是:构建一个更好的数据集。“我们决定我们想做一件史无前例的事情,”李飞飞说,这里的“我们”指的是最初与她合作的一个小团队。“我们要详细描绘出整个世界的物体。”由此生成的数据集名叫 ImageNet。相关论文发表于 2009 年,最初作为一篇研究海报在迈阿密海滩会议中心的角落展示出来。但没过多久,这个数据集就迅速发展成为一项年度竞赛,衡量哪些算法可以以最低的错误率识别数据集图像中的物体。 许多人都认为 ImageNet 竞赛是如今席卷全球 AI 浪潮的催化剂。ImageNet 竞赛的历届参赛成员散布在科技界的每一个角落。2010 年比赛第一名的获奖者,之后依次在百度、谷歌和华为担任要职。2013 年 ImageNet 获奖者 Matthew Zeiler 根据他的获奖方案建立了 Clarifai,现在得到了 4000 万美元的风险投资支持。2014 年,来自牛津大学的两名研究人员和谷歌共同获得了 ImageNet 竞赛,他们迅速被吸收然后加入了
DeepMind。李飞飞现在是谷歌云的首席科学家、斯坦福大学教授,斯坦福 AI 实验室的主任。今天,她在 CVPR 上介绍 2017 年 ImageNet 的成果——而 2017 年是比赛的最后一年。在短短 7 年时间里,物体分类冠军的精确度从 71.8% 上升到 97.3%,超越了人类物体分类水平,也有力证明了更大的数据会带来更好的决策。就算 ImageNet 竞争结束,其遗产已经形成。自 2009 年以来,在计算机视觉、自然语言处理和语音识别等子领域,研究人员也引入了几十种新的 AI 研究数据集。“ImageNet 思维所带来的范式转变是,尽管很多人都在注意模型,但我们要关心数据,”李飞飞说:“数据将重新定义我们对模型的看法。”在 20 世纪 80 年代后期,普林斯顿心理学家乔治·米勒(George Miller)创建了一个名为 WordNet 的项目,旨在建立一个英语层级结构。WordNet 像字典一样,但其中单词会被显示为与其他单词相关的形式,而不是依照字母顺序排列。例如在 WordNet 中,“狗”这个词将被嵌套在“犬”这个类别下,而“犬”又被嵌套在“哺乳动物”下,以此类推。这是按照机器可读的逻辑组织的语言的一种方式,WordNet 积累了超过 155,000 个有索引的单词。李飞飞在 UIUC 的第一份教学工作中,一直在努力解决机器学习中的一个核心矛盾:过拟合和泛化。过拟合就是指算法只能处理与之前见过的数据类似的数据;变化稍微大一点的问题就不能理解。另一方面,如果一个模型无法在数据之间找到正确的模式,那么它就属于 overgeneralizing。李飞飞说,要找到完美的算法似乎还很遥远。她发现以前的数据集并没有反映出世界的多变,就连只是识别猫的图片都是件无限复杂的事情。但是,通过给算法更多的样本,向算法展示世界是多么复杂,算法在数学意义上对现实有了更好的理解。如果你只看 5 张猫的照片,那么你只知道这 5 个摄像机角度、照明条件和最多 5 种不同种类的猫。但是,如果你看过 500 张猫的照片,你就能从更多的例子中发现共同点。李飞飞开始阅读其他人如何构建数据集对世界进行真切表示的文献。在这个搜索的过程中,她发现了 WordNet。看过 WordNet 的方法后,李飞飞在 2006 年访问普林斯顿期间,见到了 Christiane Fellbaum 教授,后者在持续构建 WordNet 方面有很大的影响力。Fellbaum 认为,WordNet 可以可以让每个单词都有一张相关联的图像,更多地作为参考而不是一个计算机视觉数据集。这次会见后,李飞飞产生了一个更宏大的想法——一个大规模的数据集,每个单词都有很多张图像例子。几个月后,李飞飞加入了她的母校普林斯顿大学任职,并于 2007 年初开始从事 ImageNet 项目。她开始建立一个团队来做这件事情,首先找到了同校的 Kai Li 教授,后者说服博士生 Jia Deng 转入李飞飞的实验室。Jia Deng 一直参与 ImageNet 项目,直到 2017 年。“对我而言,这显然与其他人正在做的事情有很大的不同,与其他人当时关注的焦点有很大不同。” Jia Deng 说:“我很清楚地知道这将为整个视觉研究带来改变,但我不知道具体会如何改变。”ImageNet 数据集中的物体(对象)将覆盖实物(如大熊猫或教堂)到抽象概念,比如爱情。李飞飞首先想到雇用本科生,10 美元一小时,手动查找图像并将其添加到数据集中。但简单的数学很快就让李飞飞意识到,以本科生收集图像的速度,项目需要 90 年才能完成。在本科生工作团队解散后,李飞飞和她的团队又开始重新思考。如果让计算机视觉算法从互联网上收集照片,人类只负责标注呢?但经过数月修改算法后,团队得出的结论,这种方法也不可持续——当使用这种方法构建的数据集弄好以后,未来的算法将只能判断算法能够识别的图像。本科生耗费时间,算法有缺陷,团队没有钱——李飞飞说,项目不仅没有赢得任何联邦拨款,还收到很多负面评论,称普林斯顿研究这课题太浪费(shameful),项目申请唯一可以称道的点就是李飞飞是女人。最终,李飞飞在跟研究生闲聊的时候意外浮现出了一个解决方案。这个研究生问李飞飞有没有听说过 Amazon Mechanical Turk,这项服务让世界各地坐在电脑前的人完成一小笔小笔的在线工作。“他向我展示了网站,就是那一天,我知道 ImageNet 项目一定能成功,”李飞飞说:“突然间,我们发现了一个可以扩展的工具,这是招聘普林斯顿的大学生完全不能想象的。”众包平台 Mechanical Turk 本身也带来了一大堆问题,其中许多工作都是由李飞飞的两名博士生学生,Jia Deng 和 Olga Russakovsky 完成的。例如,每张图像需要多少个众包工人来看?也许两个人就能确定一只猫是一只猫,但是一张微型哈士奇的图片可能需要 10 轮验证。如果一些众包工人胡乱标注怎么办?李飞飞的团队最终为众包工人的行为创建了一批统计模型,帮助确保数据集只包含正确的图像。即使在发现 Mechanical Turk 这个平台后,数据也花了两年半的时间才完成。ImageNet 数据集由 320 万个标记图像组成,分为 5,247 个类别,归到 12 个子例里,比如“哺乳动物”,“车辆”和“家具”。2009 年,李飞飞和她的团队发表了 ImageNet 数据集的论文,基本没有引发什么反响。李飞飞回忆说,计算机视觉研究领域的顶级会议 CVPR,只给了那篇论文一张海报展示(poster)的位置,而不是口头介绍(oral)。李飞飞和她的团队在会场发带有 ImageNet 字样的笔来吸引人们的兴趣。当时的人都很怀疑他们更多的数据有助于开发更好算法的看法。“当时有人说‘如果你连一个物体都做不好,为什么要做上千乃至上万个呢?”Jia Deng 说。如果数据是新的原油,那么在 2009 年,它还处于恐龙化石的形态。2009 年晚些时候,在京都举行的计算机视觉会议上,一位名叫 Alex Berg 的研究员找到李飞飞,建议在比赛中增加一个命题,让算法找到图片中物体(对象)所在的位置,而不仅仅说图中有这么个东西。李飞飞回应说:那你来和我一起工作吧。于是,李飞飞、Berg 和 Deng 一起,根据数据集撰写了 5 篇论文,探讨了算法如何解释这样大量的数据。第一篇论文后来成为如何处理几千种图像的基准,这也是 ImageNet 竞赛的前身。对于这第一篇论文,李飞飞说,“我们意识到要把这个想法推广出去,我们需要找到更多人。”然后,李飞飞联系了欧洲知名图像识别大赛 PASCAL VOC,后者同意与 ImageNet 合作,在宣传 ImageNet 竞赛时带上他们的名字。PASCAL 是业界知名的竞赛和数据集,但代表的是以前的思维方式。这个数据集只有 20 个类别,而 ImageNet 的这个数字是 1000。随着 ImageNet 在 2011 年和 2012 年连续举办,它很快成为图像分类算法在处理当时最复杂视觉数据集时的基准。不仅如此,研究人员也开始注意到更多的事情,不仅仅是竞赛——他们的算法在使用 ImageNet 数据集训练时表现更好。“令人惊喜的是,你可以用在 ImageNet 上训练的模型启动其他识别任务。你从 ImageNet 模型开始,然后微调来进行另一个任务,”Berg说:“这是神经网络的突破,也是整个视觉识别的突破。”在第一次 ImageNet 竞赛的两年后,2012 年,发生了一件更大的事情。事实上,如果我们今天看到的人工智能繁荣可以归功于一个事件,那么这件事就是 2012 年 ImageNet 竞赛结果的公布。多伦多大学的 Geoffrey Hinton,Ilya Sutskever 和 Alex Krizhevsky 提交了一个名为 AlexNet 的深度卷积神经网络架构——至今仍在研究中使用——实现了准确率 10.8% 的大幅提升,高出第二名 41%。对于 Hinton 和他的两个学生来说,ImageNet 的出现恰逢其时。自 20 世纪 80 年代以来,Hinton 一直致力于人工神经网络的研究,尽管有些像 Yann LeCun 一样,能够通过贝尔实验室的影响将这项技术应用于 ATM 支票识别,但是 Hinton 的研究却无处可用。几年前,显卡制造商英伟达的研究让这些网络的处理速度更快,但神经网络仍然不如其他技术。Hinton 和他的团队表明,他们的网络可以在较小的数据集上执行较小的任务,如手写字符检测。但是,他们需要更多的数据才能在现实世界中有用。“如果你在 ImageNet 上做得很好,你就能解决图像识别问题,这是再清楚不过的。”Sutskever 说。今天,这些卷积神经网络已经无处不在——LeCun 现在是 Facebook AI Research 的主管,Facebook 使用它们来标记你的照片,自动驾驶汽车在使用它们来检测物体,基本上任何识别图像和视频的系统都使用卷积神经网络(CNN)。CNN 可以通过抓取抽象特征分辨图像中的内容,找到模式与新输入的图像模式相匹配。Hinton 几十年来一直试图说服同行他的研究有用,现在他终于有了证据。“更令人惊奇的是,人们能够通过深度学习来不断改进,”Sutskever 说,指多层神经网络能够处理更复杂的模式,也是现在最受欢迎的人工智能技术。“深度学习就是我们要的东西(Deep learning is just the right stuff)。”2012 年 ImageNet 竞赛的结果使计算机视觉研究人员纷纷开始复现这一过程。纽约大学的博士生 Matthew Zeiler 曾经跟着 Hinton 学习,他发现了 ImageNet 竞赛的结果,并通过多伦多大学的联系很早获知了论文和代码。他开始与 Rob Fergus 合作,Fergus 是纽约大学的教授,也一直研究神经网络。两人开始为 2013 年的 ImageNet 竞赛设计自己的方案,Zeiler 最后提前几周结束了在谷歌实*,专注于提交 ImageNet 竞赛结果。2014 年,也就是 Zeiler 和 Fergus 获胜那一年,所有的高分结果使用的方法都是深度神经网络。“2012 年的 ImageNet 竞赛无疑引发了 AI 大爆炸,”Zeiler 表示:“在此之前,语音识别有一些非常有希望的结果(其中许多是由多伦多大学开启的),但是都没有像 2012 年和接下来的 ImageNet 竞赛冠军一样广为流传。”现在,许多人都认为 ImageNet 已经被解决了——误差率在 2% 左右真的很低了。但是,这是分类的结果,也就是识别图像中的物体是什么。这并不代表算法知道这个物体的属性,它来自哪里、功能是什么、如何使用,或者如何与其周围环境进行交互。总之,算法实际上并不理解它看到了什么。这在语音识别中,甚至在很多自然语言处理中也是如此。虽然 AI 今天在分辨事物上十分厉害,但接下来要在现实世界情景中理解事物是什么。至于怎么做到这一点,AI 研究人员目前还不清楚。尽管 ImageNet 竞赛结束了,但 ImageNet 数据集——经过多年来更新,现在已经超过 1300 万张图片将会继续。Berg 表示,团队试图在 2014 年结束竞赛的一个子命题,但却遭到了来自包括谷歌和 Facebook 等公司的阻力。产业界非常喜欢这个基准,他们可以指着一个数字说:“看我们这么牛。”自 2010 年以来,谷歌、微软和 CIFAR 推出了其他一些数据集,因为事实表明深度学习需要像 ImageNet 这样的大数据。数据集已经变得非常重要。创始人和风险投资家会在 Medium 写文章介绍最新发布的数据集,以及他们的算法在 ImageNet 上的表现。互联网公司,比如谷歌、Facebook 和亚马逊已经开始创建自己的内部数据集,数据都来自每天在他们的平台上输入和共享的数百万图像、语音片段和文本片段。即使是初创公司也开始构建自己的数据集——TwentyBN,一个专注于视频理解的 AI 初创公司,发布了两个免费的学术数据集,每个数据集有超过 100,000 个视频。李飞飞说:“各种数据集,从视频到语音到游戏,都有很大的发展。”有时人们理所当然的认为这些花了大力气收集、组合、检验的数据集是免费的。开放和自由使用是 ImageNet 的原始宗旨,这一宗旨也将超越 ImageNet 竞赛,甚至数据集传承下去。2016 年,谷歌发布了 Open Images 数据集,其中包含 6000 多个类别的 900 万张图像。谷歌最近更新了数据集,在每个图像中包含了特定对象所在的标签,这个特点在 2014 年的ImageNet 竞赛后成了图像数据集的标配。DeepMind 最近也发布了人类进行各种行为的视频数据集。“ImageNet 让 AI 领域发生的一个重大变化是,人们突然意识到构建数据集这个苦活累活是 AI 研究的核心,”李飞飞说: “人们真的明白了,数据集跟算法一样,对研究都至关重要。”李飞飞演讲开始:IMAGENET,我们做了哪些事情?现在将去向何方?开端: CVPR 2009,迈阿密IMAGENET 的影响IMAGENET on Google Scholar从参赛者到初创企业深度学习的革命,深度学习为何突然改变了你的生活“The IMAGENET of x”数据集的爆发
Kaggle李飞飞演讲中“数据集—而非算法—可能是人类水平人工智能发展的关键性限制因素”IMAGENET,不为人知的历史“几乎不算是第一个图像数据集”视觉学习的机器学习问题Complexity, Generalization, OverfittingOne-Shot Learning李飞飞演讲中One-Shot Learning 算法:贝叶斯变分推断孩子是如何学习去看的?孩子是如何学习去看的?新思路:转换视觉识别的机器学习焦点WordNet 是什么?“Individually Illustrated WordNet Nodes”IMAGENET ComradesImageNet 的建设ImageNet 的建设ImageNet 的建设启动 IMAGENET 的三次尝试第一次尝试:精神物理学实验第一次尝试:精神物理学实验第二次尝试:“人为介入”解决方案第二次尝试:“人为介入”解决方案第三次尝试:天赐良机2009 年,IMAGENET "Goes Live"我们做对的一件事是...当其他人追求细节时...我们追求的是规模(scale)IMAGENET 的其他目标IMAGENET,ILSVRC ILSVRC 的贡献者我们的灵感来源:PASCAL VOC我们的灵感来源:PASCAL VOC,Mark Everingham性能表现性能表现性能表现我们做了什么让 ImageNet 变得更好缺少细节缺少细节...ILSVRC 检测挑战ILSVRC 检测任务的评估ILSVRC 检测任务的评估10K+ classes 分类告诉了我们什么细粒度识别细粒度识别预期结果非预期结果Neural Nets are Cool Again!Cooler and Cooler...深度学习革命三要素:神经网络、互联网图像数据、GPUOntological Structure 用得不那么多使用 Ontology 的工作相当少大多数工作仍在用 1M 图像做预训练“我们发现在视觉任务中的表现和训练数据集的 size 数量级成正比.”比起人类如何?比起人类如何?接下来的工作从对象识别到人类水平的理解Inverse Graphics计算机视觉理解视觉基因数据集(Visual Genome Dataset)视觉基因数据集(Visual Genome Dataset)通过网络数据学习的视觉理解 Workshop视觉和智能的未来8 年 IMAGENET 竞赛IMAGENET+KaggleIMAGENET+KaggleIMAGENET:贡献者/伙伴/顾问“这并非结束,结束甚至还没有开始,但也许,我们已经起步。”【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位点击阅读原文可查看职位详情,期待你的加入~李飞飞: 我们怎么教计算机理解图片? | TED Talk Subtitles and Transcript | TED
You have JavaScript disabled
For the best experience, please turn JavaScript on.
About the talk
我先来给你们看点东西。
(视频)女孩:
好吧,这是只猫,坐在床上。
一个男孩摸着一头大象。
那些人正准备登机。
那是架大飞机。
这是一个三岁的小孩
在讲述她从一系列照片里看到的东西。
对这个世界,
她也许还有很多要学的东西,
但在一个重要的任务上,
她已经是专家了:
去理解她所看到的东西。
我们的社会已经在科技上
取得了前所未有的进步。
我们把人送上月球,
我们制造出可以与我们对话的手机,
或者订制一个音乐电台,
播放的全是我们喜欢的音乐。
然而,哪怕是我们最先进的机器和电脑
也会在这个问题上犯难。
所以今天我在这里,
向大家做个进度汇报:
关于我们在计算机
视觉方面最新的研究进展。
这是计算机科学领域最前沿的、
具有革命性潜力的科技。
是的,我们现在已经有了
具备自动驾驶功能的原型车,
但是如果没有敏锐的视觉,
它们就不能真正区分出
地上摆着的是一个压扁的纸袋,
可以被轻易压过,
还是一块相同体积的石头,
应该避开。
我们已经造出了超高清的相机,
但我们仍然无法把
这些画面传递给盲人。
我们的无人机可以飞跃广阔的土地,
却没有足够的视觉技术
去帮我们追踪热带雨林的变化。
安全摄像头到处都是,
但当有孩子在泳池里溺水时
它们无法向我们报警。
照片和视频,已经成为
全人类生活里不可缺少的部分。
它们以极快的速度被创造出来,
以至于没有任何人,或者团体,
能够完全浏览这些内容,
而你我正参与其中的这场TED,
也为之添砖加瓦。
直到现在,我们最先进的
软件也依然为之犯难:
该怎么理解和处理
这些数量庞大的内容?
所以换句话说,
在作为集体的这个社会里,
我们依然非常茫然,因为我们最智能的机器
依然有视觉上的缺陷。
”为什么这么困难?“你也许会问。
照相机可以像这样获得照片:
它把采集到的光线转换成
二维数字矩阵来存储
——也就是“像素”,
但这些仍然是死板的数字。
它们自身并不携带任何意义。
就像”听到“和”听“完全不同,
”拍照“和”看“也完全不同。
通过“看”,
我们实际上是“理解”了这个画面。
事实上,大自然经过了5亿4千万年的努力
才完成了这个工作,
而这努力中更多的部分
是用在进化我们的大脑内
用于视觉处理的器官,
而不是眼睛本身。
所以&视觉”从眼睛采集信息开始,
但大脑才是它真正呈现意义的地方。
所以15年来,
从我进入加州理工学院攻读Ph.D.
到后来领导
斯坦福大学的视觉实验室,
我一直在和我的导师、
合作者和学生们一起
教计算机如何去“看”。
我们的研究领域叫做
&计算机视觉与机器学习&。
这是AI(人工智能)领域的一个分支。
最终,我们希望能教会机器
像我们一样看见事物:
识别物品、辨别不同的人、
推断物体的立体形状、
理解事物的关联、
人的情绪、动作和意图。
像你我一样,只凝视一个画面一眼
就能理清整个故事中的人物、地点、事件。
实现这一目标的第一步是
教计算机看到“对象”(物品),
这是建造视觉世界的基石。
在这个最简单的任务里,
想象一下这个教学过程:
给计算机看一些特定物品的训练图片,
比如说猫,
并让它从这些训练图片中,
学习建立出一个模型来。
这有多难呢?
不管怎么说,一只猫只是一些
形状和颜色拼凑起来的图案罢了,
比如这个就是我们
最初设计的抽象模型。
我们用数学的语言,
告诉计算机这种算法:
“猫”有着圆脸、胖身子、
两个尖尖的耳朵,还有一条长尾巴,
这(算法)看上去挺好的。
但如果遇到这样的猫呢?
它整个蜷缩起来了。
现在你不得不加入一些别的形状和视角
来描述这个物品模型。
但如果猫是藏起来的呢?
再看看这些傻猫呢?
你现在知道了吧。
即使那些事物简单到
只是一只家养的宠物,
都可以出呈现出无限种变化的外观模型,
而这还只是“一个”对象的模型。
所以大概在8年前,
一个非常简单、有冲击力的
观察改变了我的想法。
没有人教过婴儿怎么“看”,
尤其是在他们还很小的时候。
他们是从真实世界的经验
和例子中学到这个的。
如果你把孩子的眼睛
都看作是生物照相机,
那他们每200毫秒就拍一张照。
——这是眼球转动一次的平均时间。
所以到3岁大的时候,一个孩子已经看过了
上亿张的真实世界照片。
这种“训练照片”的数量是非常大的。
所以,与其孤立地关注于
算法的优化、再优化,
我的关注点放在了给算法
提供像那样的训练数据
——那些,婴儿们从经验中获得的
质量和数量都极其惊人的训练照片。
一旦我们知道了这个,
我们就明白自己需要收集的数据集,
必须比我们曾有过的任何数据库都丰富
——可能要丰富数千倍。
因此,通过与普林斯顿大学的
Kai Li教授合作,
我们在2007年发起了
ImageNet(图片网络)计划。
幸运的是,我们不必在自己脑子里
装上一台照相机,然后等它拍很多年。
我们运用了互联网,
这个由人类创造的
最大的图片宝库。
我们下载了接近10亿张图片
并利用众包技术(利用互联网分配工作、发现创意或
解决技术问题),像“亚马逊土耳其机器人”这样的平台
来帮我们标记这些图片。
在高峰期时,ImageNet是「亚马逊土耳其机器人」
这个平台上最大的雇主之一:
来自世界上167个国家的
接近5万个工作者,在一起工作
帮我们筛选、排序、标记了
接近10亿张备选照片。
这就是我们为这个计划投入的精力,
去捕捉,一个婴儿可能在他早期发育阶段
获取的”一小部分“图像。
事后我们再来看,这个利用大数据来训练
计算机算法的思路,也许现在看起来很普通,
但回到2007年时,它就不那么寻常了。
我们在这段旅程上孤独地前行了很久。
一些很友善的同事建议我
做一些更有用的事来获得终身教职,
而且我们也不断地为项目的研究经费发愁。
有一次,我甚至对
我的研究生学生开玩笑说:
我要重新回去开我的干洗店
来赚钱资助ImageNet了。
——毕竟,我的大学时光
就是靠这个资助的。
所以我们仍然在继续着。
在2009年,ImageNet项目诞生了——
一个含有1500万张照片的数据库,
涵盖了22000种物品。
这些物品是根据日常英语单词
进行分类组织的。
无论是在质量上还是数量上,
这都是一个规模空前的数据库。
举个例子,在&猫&这个对象中,
我们有超过62000只猫
长相各异,姿势五花八门,
而且涵盖了各种品种的家猫和野猫。
我们对ImageNet收集到的图片
感到异常兴奋,
而且我们希望整个研究界能从中受益,
所以以一种和TED一样的方式,
我们公开了整个数据库,
免费提供给全世界的研究团体。
那么现在,我们有了用来
培育计算机大脑的数据库,
我们可以回到”算法“本身上来了。
因为ImageNet的横空出世,它提供的信息财富
完美地适用于一些特定类别的机器学习算法,
称作“卷积神经网络”,
最早由Kunihiko Fukushima,Geoff Hinton,
和Yann LeCun在上世纪七八十年代开创。
就像大脑是由上十亿的
紧密联结的神经元组成,
神经网络里最基础的运算单元
也是一个“神经元式”的节点。
每个节点从其它节点处获取输入信息,
然后把自己的输出信息再交给另外的节点。
此外,这些成千上万、甚至上百万的节点
都被按等级分布于不同层次,
就像大脑一样。
在一个我们用来训练“对象识别模型”的
典型神经网络里,
有着2400万个节点,1亿4千万个参数,
和150亿个联结。
这是一个庞大的模型。
借助ImageNet提供的巨大规模数据支持,
通过大量最先进的CPU和GPU,
来训练这些堆积如山的模型,
“卷积神经网络”
以难以想象的方式蓬勃发展起来。
它成为了一个成功体系,
在对象识别领域,
产生了激动人心的新成果。
这张图,是计算机在告诉我们:
照片里有一只猫、
还有猫所在的位置。
当然不止有猫了,
所以这是计算机算法在告诉我们
照片里有一个男孩,和一个泰迪熊;
一只狗,一个人,和背景里的小风筝;
或者是一张拍摄于闹市的照片
比如人、滑板、栏杆、灯柱…等等。
有时候,如果计算机
不是很确定它看到的是什么,
我们还教它用足够聪明的方式
给出一个“安全”的答案,而不是“言多必失”
——就像人类面对这类问题时一样。
但在其他时候,我们的计算机
算法厉害到可以告诉我们
关于对象的更确切的信息,
比如汽车的品牌、型号、年份。
我们在上百万张谷歌街景照片中
应用了这一算法,
那些照片涵盖了上百个美国城市。
我们从中发现一些有趣的事:
首先,它证实了我们的一些常识:
汽车的价格,与家庭收入
呈现出明显的正相关。
但令人惊奇的是,汽车价格与犯罪率
也呈现出明显的正相关性,
以上结论是基于城市、或投票的
邮编区域进行分析的结果。
那么等一下,这就是全部成果了吗?
计算机是不是已经达到,
或者甚至超过了人类的能力?
——还没有那么快。
目前为止,我们还只是
教会了计算机去看对象。
这就像是一个小宝宝学会说出几个名词。
这是一项难以置信的成就,
但这还只是第一步。
很快,我们就会到达
发展历程的另一个里程碑:
这个小孩会开始用“句子”进行交流。
所以不止是说这张图里有只“猫”,
你在开头已经听到小妹妹
告诉我们“这只猫是坐在床上的”。
为了教计算机看懂图片并生成句子,
“大数据”和“机器学习算法”的结合
需要更进一步。
现在,计算机需要从图片和人类创造的
自然语言句子中同时进行学习。
就像我们的大脑,
把视觉现象和语言融合在一起,
我们开发了一个模型,
可以把一部分视觉信息,像视觉片段,
与语句中的文字、短语联系起来。
大约4个月前,
我们最终把所有技术结合在了一起,
创造了第一个“计算机视觉模型”,
它在看到图片的第一时间,就有能力生成
类似人类语言的句子。
现在,我准备给你们看看
计算机看到图片时会说些什么
——还是那些在演讲开头给小女孩看的图片。
(视频)计算机:
“一个男人站在一头大象旁边。”
“一架大飞机停在机场跑道一端。”
当然,我们还在努力改善我们的算法,
它还有很多要学的东西。
计算机还是会犯很多错误的。
(视频)计算机:
“一只猫躺在床上的毯子上。”
李飞飞:所以…当然——如果它看过太多种的猫,
它就会觉得什么东西都长得像猫……
(视频)计算机:
“一个小男孩拿着一根棒球棍。”
李飞飞:或者…如果它从没见过牙刷,
它就分不清牙刷和棒球棍的区别。
(视频)计算机:
“建筑旁的街道上有一个男人骑马经过。”
李飞飞:我们还没教它Art 101
(美国大学艺术基础课)。
(视频)计算机:
“一只斑马站在一片草原上。”
李飞飞:它还没学会像你我一样
欣赏大自然里的绝美景色。
所以,这是一条漫长的道路。
将一个孩子从出生培养到3岁是很辛苦的。
而真正的挑战是从3岁到13岁的过程中,
而且远远不止于此。
让我再给你们看看这张
关于小男孩和蛋糕的图。
目前为止,
我们已经教会计算机“看”对象,
或者甚至基于图片,
告诉我们一个简单的故事。
(视频)计算机:
”一个人坐在放蛋糕的桌子旁。“
李飞飞:但图片里还有更多信息
——远不止一个人和一个蛋糕。
计算机无法理解的是:
这是一个特殊的意大利蛋糕,
它只在复活节限时供应。
而这个男孩穿着的
是他最喜欢的T恤衫,
那是他父亲去悉尼旅行时
带给他的礼物。
另外,你和我都能清楚地看出,
这个小孩有多高兴,以及这一刻在想什么。
这是我的儿子Leo。
在我探索视觉智能的道路上,
我不断地想到Leo
和他未来将要生活的那个世界。
当机器可以“看到”的时候,
医生和护士会获得一双额外的、
不知疲倦的眼睛,
帮他们诊断病情、照顾病人。
汽车可以在道路上行驶得
更智能、更安全。
机器人,而不只是人类,
会帮我们救助灾区被困和受伤的人员。
我们会发现新的物种、更好的材料,
还可以在机器的帮助下
探索从未见到过的前沿地带。
一点一点地,
我们正在赋予机器以视力。
首先,我们教它们去“看”。
然后,它们反过来也帮助我们,
让我们看得更清楚。
这是第一次,人类的眼睛不再
独自地思考和探索我们的世界。
我们将不止是“使用”机器的智力,
我们还要以一种从未想象过的方式,
与它们“合作”。
我所追求的是:
赋予计算机视觉智能,
并为Leo和这个世界,
创造出更美好的未来。

我要回帖

更多关于 飞飞魔法任务坐标 的文章

 

随机推荐