大数据,黑科技,人工智能为关键词的作文

每年5月Google I/O大会都会引起一番热议,今年也不例外本次大会于美国时间5月8日正式开幕,焦点仍是AI其中大部分产品的新功能都是AI和机器学习的功劳。这次的关注点主要在軟件上如何充分利用这些软件,此外谷歌还在大会前将Google Research更名为Google AI,对于接下来Google的发展方向这一变化也给了我们诸多提示。

谷歌助手、Android P昰这次大会的重头戏而Duplex更是抢尽风头,下面让我们具体来看一看这次Google I/O大会都为我们带来了什么新的产品和功能

  • 在你给它一个命令后,Google助手将会继续监听8秒这样你就无需一直重复,整个对话都会变得流畅
  • 谷歌助手增添了新的声音现在总共有8个声音可供选择,其中包括著名音乐家John Legend的声音

另外最引人注目的是用Duplex与谷歌助手相结合,这种语音助手听起来与人类别无二致这种语音助手用近似人类的节奏说話,能够理解上下文和含糊的回答在演示中,谷歌助理听起来非常人性化而且能够自然地回答那些用浓重口音做出的问题和评论,成功骗过了接电话的人也就是说,利用这种技术语音助手可以与人进行自然的对话,而且说话的声音也十分自然

这一技术还可以实现與服务提供者之间的委托通信,例如在非工作时间预订服务,或者使用有限的连接它还可以帮助解决语言障碍,听力受损的用户或语訁不通的用户都可以通过电话执行任务

谷歌在3月份发布了Android P的开发者预览版,下面是Android P的新功能:

  • 基于AI的亮度调节和自适应这一功能可以幫你延长电池寿命
  • 操作手势和垂直控制的更新,多任务处理和单手使用改进
  • 更新数字健康功能谷歌会统计你看屏幕的时间,控制手机使鼡预防过度沉迷

Google News嵌入了AI,帮助用户寻找感兴趣的故事和可信的来源Google News相当于你的兴趣识别器,帮你筛选出你偏好阅读的文章你可以更恏地进行个性化操作。

谷歌地图的更新嵌入了AI降低了它对沟通和互动方面的依赖度。如果你正在按照路线导航你可以让地图读取你的短信。最令人惊艳的命令是“share my ETA”地图可以估算你到达目的地的时间然后给你的朋友发送短信。另外Your Match分数利用机器学习,将谷歌所知道嘚位置与你添加的信息结合起来比如你的评分、旅行历史和兴趣。

此外Google Lens可以从图片中选择文字,这是文字和图像识别的重要突破;Waymo使鼡深度学习将自动驾驶汽车的识别精度显著提高。种种产品和功能更新都离不开人工智能这一主题。

从这次大会可以看出谷歌在AI方面嘚确投入了不少心血在AI发展如此之快的今天,未来谷歌对AI相关功能的更新值得期待

7.4 数据赋能商家背后的黑科技

马老師曾提到三次技术革命:“第一次技术革命是体能的释放是让人的力量更大,第二次技术革命是对能源的利用使得人可以走得更遥远,而这一次技术革命是IT时代走向DT时代是真正的大脑的释放。我们其实正在进入一个新的能源的时代这个时代核心资源已经不是石油,洏是数据”。 逍遥子也曾经讲过:“我们用大数据赋能了双11赋能了我们自己的运营能力。我们还要更上一层楼利用大数据赋能所有嘚商家,帮助他们运营好消费者这样才能让我们在大数据时代践行‘让天下没有难做的生意’的使命。”

新商家事业部自去年12月成立以來数据赋能商家就是重要的方向之一。我们将之前平台沉淀的数据和算法的能力转过来赋能我们为商家提供的工具和平台这其中包括愙户运营平台、千牛、服务市场等等。很多技术在今年的双11也起到了非常显著的作用为商家带来实实在在的收益。下面从客户运营平台、千牛头条、服务市场三个产品给大家分享一下我们如何通过ML&AI技术重新定义产品

客户运营平台旨在为商家提供基于大数据和人工智能的愙户精细化运营能力。阿里巴巴2015年提出客户运营战略方向带领平台的商家从“流量经营”向“客户运营”转型。客户运营的核心理念有兩个方面:其一是精细化其二是从过于关注短期经营的成交目标向关注客户粘性、客户体验、客户忠诚度的目标转变。客户运营平台提供了“访客运营”和“会员粉丝运营”两大利器借助大数据和人工智能技术,帮助商家提升客户运营的效率2016年双11,超过23万商家通过客戶运营平台实现了店铺的个性化运营和粉丝会员的精准营销显著提升了成交转化。下面以访客运营为例,介绍AI分群引擎的应用

访客運营通过对访客的细分和精准营销策略来提升转化的效果。如下图所示是某美妆店铺的访客分群个性化店铺首页策略示例,左侧和右侧汾别是针对水乳类和面膜类偏好人群的个性化首页通过面向细分的人群投放有针对性的内容,可以显著提升客户体验和访客成交转化率类似的分群运营策略还可以应用在详情、微淘等场景。

图: 访客运营示例:个性化店铺首页

有别于普通的营销平台阿里巴巴客户运营岼台通过AI能力,实现了对访客的实时分群也就是说当客户进入店铺的一瞬间,客户运营平台的AI引擎会对用户所属的人群进行实时预测嘚到此时此刻的最佳分群结果。下图是AI分群引擎架构图:

AI实时分群的三大特点如下:

  • 行业级别的模型 同一个特征在不同的行业会有不同的偅要性例如地域属性,对于美妆行业用户是否偏好保湿产品具有较强的预测能力因为北方干燥,南方潮湿而对于快消行业,比如用戶是否会喜欢吃某种口味的零食地域属性预测能力就会比较弱。因此同一个特征在不同的行业会有不同的权重

  • 长期、近期和实时相结匼的特征体系 例如用户对男装、女装、童装三类服饰商品的偏好,既受用户的人口统计学特征比如性别、年龄段的影响,又受随机实时凊境的影响比如女性客户可能会为男友或家人购买男装,因此当我们按照偏好对客户分群时既需要考虑长期稳定的属性和行为,又需偠结合实时的行为和需求

  • 店铺分群自适应 以美妆行业为例,从用户在平台层面上的行为来看大部分用户可能会偏好美白、保湿功效的產品,而具体到某个品牌其主营的产品品类和平台总体的品类成交分布很可能有较大偏差,比如一些品牌可能是主打彩妆另外的一些品牌则主打紧致类的产品。当我们用平台整体数据建立的模型对用户在某个店铺的分群归属进行预测的时候很可能会出现偏差。为了使嘚AI引擎能够适应店铺多样化的情况我们从两个角度进行了升级,其一是引入店铺内销量分布作为分群结果的先验其二是引入了增强学習技术(多臂老.虎.机.MAB)为每个商家自动调整模型参数。

对比于静态的人口统计学分群方法AI分群具有实时性高、精准性好、店铺自适应等特点,商家实际使用的效果提升也更加显著

阿里巴巴作为一个新零售平台,平台上的商家具有很高的多样性客户运营平台基于增强学習技术的自适应技术,能够使得AI分群自动适应每个店铺的策略特点通过该方法的应用,在一级类目偏好分群的场景下成交转化率提升超过10%,同时个性化的渗透率大幅提升40%

3. 双11大促店铺承接页个性化技术

今年双11阿里巴巴首次实现了全面的全站个性化,包括从会场到大促承接页到店铺再到详情而大促店铺承接页是连接会场与店铺的桥梁,大促承接页的整体活动氛围和布局由平台确定商家可以通过页面装修工具来装修商品模块、营销模块等内容。2016年双11大促承接页首次实现了全面的个性化实现了显著的成交转化提升。

大促承接页个性化属於单个店铺内的个性化相比于平台级的个性化场景(例如手机淘宝猜你喜欢、有好货等),具有一些特有的挑战平台级的个性化我们鈳以想象为把平台的大量商品作为候选商品,形成一个虚拟店铺用户在平台上的行为都是这个虚拟店铺内的行为;店铺内的个性化,候選商品为单个店铺的商品用户在单个店铺内的行为是非常稀疏的,必须要考虑借助用户在平台整体的行为来做好店铺内的个性化面向店铺内个性化的特点,我们的AI个性化引擎框架主要包括matching框架和ranking框架两个部分

matching框架解决的是用户偏好意图的覆盖,即基于单店的小数量级商品尽可能全面地匹配用户的偏好和意图matching框架还有一个重要的作用是为ranking提供输入特征;ranking框架解决的是个性化商品列表的最优排序问题,咜基于历史反馈数据、用户特征、商品特征、用户与商品的交叉特征等训练面向特定业务目标的模型

在matching阶段,我们可插拔的框架支持多種matching方法:

  • 基于索引的方法 包括minhash、simhash等hashing-based的方法利用局部一跳信息建立商品索引;
  • 基于Graph Embedding的方法 Graph Embeding也是一种商品索引,与hashing-based方法的不同之处在于它可鉯利用图的全局信息、多跳信息来建模具有更高的覆盖度;
  • 基于语义匹配的方法 例如基于用户偏好的商品属性与商品本身的属性进行匹配;
  • 基于流式计算的方法 基于流式计算引擎,实时更新商品之间的关联关系更好地捕捉线上流量的变化
  • 面向场景的适配  基于排序学习技術,可以将上述方法的输出进行面向场景的重新排序和打分使得matching层面向特定场景调优

我们创新地提出了面向电商场景的大规模分布式Graph Embeding的算法。商品Embedding算法可以将一个现实生活中的商品实体表示成低维空间里的一个向量使得我们可以仅通过这些向量之间的空间位置关系就能嘚到商品之间的某些联系。由于我们可以将学习出来的Embedding向量作为更上层机器学习任务的输入这就使得Embedding这样的表示学习非常有潜力。在双11Φ我们设计实现了一种能够保持非对称关系的Graph Embedding算法,来对商品进行Embedding由于用户对大部分商品(长尾)的点击行为非常稀疏,我们选择将鼡户的点击序列拼接成商品点击转换图的形式来试图缓解稀疏性问题以提高商品Embedding的质量。另一方面为了表示商品之间的非对称关系(唎如购买手机后可能会对手机壳感兴趣,但反之不成立)我们用两个Embedding向量来表示一个商品的不同角色(已被看过和待预测)。我们在构建好的商品图中对每个商品节点按照带重启动的随机游走进行路径采样,并且仅按照采样的正方向分别对两个Embedding向量进行更新我们基于汾布式平台ODPS Graph首次实现了亿级别节点、百亿级边的大规模图数据的Embedding,并且在理论上我们还证明了基于这种采样方式的Graph Embedding算法能够保持原图节點之间的Rooted PageRank的相似度关系,相关工作已被人工智能顶级国际会议AAAI 2017接收

在ranking阶段,我们通过亿级特征的大规模稀疏模型包括LR、FTRL、DNN(深度学习),十亿级样本的训练实现精准的个性化排序。特征的体系包括用户、商品、matching特征、场景相关的反馈类特征、以及场景化(context)特征在特征实时性方面我们会结合长期特征、短期特征和实时特征,在追踪线上变化的同时能够保持较高的覆盖度和稳定性;在样本层面通过ㄖ志去噪、样本采样策略、样本构造策略(页面级样本和模块级样本),优化样本构造;在模型层面通过天级、小时级和实时模型,结匼面向不同目标的模型来综合优化业务目标比如我们会利用多个模型对点击、加购、成交等目标进行建模,并实时结合多个模型来优化朂终的业务目标我们的分布式GBDT排序学习算法能够支持不同类型的排序函数,包括pairwise ranking和listwise ranking能够从样本和特征两个维度对数据进行拆分并进行並行化训练,可以支持百亿级样本深度学习模型训练基于阿里巴巴集团多机多卡的分布式GPU训练平台,可支持大规模亿级稀疏特征、亿级樣本的神度学习模型快速训练我们对深度学习实时预测的性能进行了深入优化,预测性能是普通实现的10倍以上

通过算法细节的不断调優,双11承接页个性化效果显著相比于非个性化页面,个性化页面的成交转化有超过20%的提升带来了十亿级别的成交提升。

4. 千牛头条技术介绍

千牛头条是一个定位于通过内容传播与运营满足商家内容消费需求的商业媒体平台。为了满足商家获取实时、个性化资讯的需求哃时提高千牛平台的流量效率,为千牛头条上线了一套个性化的资讯推荐系统

图:千牛头条双11和热门频道

目前个性化算法支持了热门feeds流、双11频道,后续会支持更多的频道和场景

4.2千年头条推荐整体框架

图:千牛头条推荐系统总体框架

千牛头条资讯推荐系统的总体框架如图3所示,整个框架可分为离线、近实时、实时三部分

离线部分主要负责用户Profile构建以及关联数据挖掘;近实时部分主要包括新发布资讯的实時分析引擎,模型流式更新引擎;实时部分基于通用的推荐pipeline并结合离线、近实时模块的产出结果,完成整套的推荐逻辑

  • 基于期望偏好嘚用户profile

为了全方位地刻画用户兴趣,从关键词、类目、行业等维度对用户兴趣进行建模在计算用户profile过程时引入期望偏好,期望偏好是根據行为分布计算的用户预期行为分布通过用户的期望偏好分布和实际偏好比较得到偏好分,最后用伽马泊松分布对偏好分进行平滑

对噺发布的资讯进行实时文本分析,包括分词、关键词抽取通过行业profile和Multi-task语义向量生成行业标签,并对资讯建立倒排索引实现实时更新。技术上集成使用TextRankMutual Information, Log Odds Ratio三种关键词抽取算法实现精准抽取;Multi-task语义向量模型与传统的Word2Vector词向量模型不同,使用词的meta data数据使得模型在给定上下文的凊况下,同时学习词的分布和词meta信息分布

千牛头条用户在百万量级,每天的新资讯相对较少每篇资讯能够累计较多的用户行为,为此采用了PerArticle的模型方法即针对每篇资讯单独训练一个Online Bayesian Logistic Regression(BLR)模型,精细化地刻画每篇资讯相比传统的LR模型,BLR模型认为模型参数本身是有先验分布嘚具有更优的泛化能力,上线后ctr也有20%的提升

模型使用的特征包含用户特征、资讯特征、用户与资讯的交叉特征等,其中用户与资讯的茭叉特征是关键特征传统的做法直接对用户特征和资讯特征进行交叉,这种方法很容易导致特征爆炸交叉后大量冗余的特征容易导致模型过拟合;为了解决上述问题,采用了一种根据业务经验进行特征交叉然后对交叉特征计算统计量的方法,该方法可以很好地解决特征组合爆炸问题同时生成的统计类特征有较好的泛化性。

时效性在资讯推荐中至关重要而新资讯由于缺乏线上反馈导致CF等基于行为的嶊荐算法失效。
从文章维度来看新文章没有用户行为但是从新文章包含的关键词、主题等维度看,历史上有很多文章也都包含这些特征因此可以根据新文章包含关键词、主题的历史表现推断新文章的表现。

千牛头条经历了两次大的算法升级核心指标如点击率有了显著嘚提升,第一次升级增加了基于用户行为的个性化;第二次升级引入文本算法以及在线排序模型

5. 数据赋能服务市场

服务市场是面向淘系商家提供多样化服务的交易平台,目前覆盖淘系活跃卖家90%以上其特点是:用户访问频次低、访问路径短、行为少,订购呈现周期性原來的服务市场千人一面,不能很好匹配商家实际需求导购效率较低。

为解决以上问题我们设计了服务市场个性化框架(如下图),在個性化搜索和推荐场景中取得了显著的效果其中搜索点击率提升10%,空结果率降低400%;千次展示成交数提升20%;推荐点击提升90%千次展示成交數提升200%,转化率比服务市场整体高70%

框架分为在线计算和离线计算,在线计算负责实时的商家行为分析商品召回,个性化排序;离线部汾负责商家/服务特征更新订购模型训练以及候选商品池计算。

图:多样化的个性化推荐算法场景

服务市场的用户访问频次低识别用户嘚实时偏好有助于更准确的匹配用户需求。实时偏好包括实时商品偏好和实时类目偏好两个维度使用时间衰减累计+用户实时访问反馈调整的方式来构建用户实时偏好模型。在实际使用时根据历史累计的数据选取TopN产生实时偏好。

服务市场搜索召回面临问题:搜索无结果、搜索结果相关性不高以及搜索结果不够优质针对上述问题,使用核心词抽取和query扩展对原query进行语义分析和补充包括:基于语义embedding对搜索词進行自适应分词和向量化表示;为保证核心词与原query语义相似,综合语义单元的类目分布熵、与原query的邻接熵与原query类目匹配度进行核心词抽取;为了扩大query召回,根据用户搜索补充了与原query相关的其他搜索核心词补充后的搜索词大幅降低了搜索无结果率,搜素点击率和转化率也嘚到明显提升个性化推荐召回以实时商品偏好,实时类目偏好近期搜索,历史订购商品为基础配合相似商品,搭配商品类目优质商品进行扩大召回,从而构建个性化推荐的优质多样的商品池

个性化推荐的模型排序部分负责对召回的商品池结合当前商家店铺和商家荇为特征进行个性化排序针。对特定的排序模型组装合适的模型特征(包括单一特征组合交叉特征,以及ID类特征等)然后根据CTR/CVR模型生荿预测分数;同时结合商家订购服务的特点,以及推荐多样性等策略的考虑对分数进行重排。

智能化是人类文明发展的趋势隨着科技的不断进步,以“数字化”

化”为基础的智能化概念开始逐渐渗透到各个领域近年来,

为促进智能产业交流中国各

级相关部門举办了多场规格多样、主题丰富的智能博览会。

全球人工智能产品应用博览会(简称“智博会”)在

苏州国际博览中心举行本届智博會以“智能体验?智慧生活”为主题,是由科技部、工信

部、江苏省政府承办的国际化高级别人工智能专业博览会

首届中国国际智能产業博览会

本届智博会以“智能化:为经济赋能,为生活添彩”为主题由科技部、工信部、中国科学

院、中国工程院、中国科学技术协会囷重庆市人民政府共同主办。

日第八届中国智慧城市技术与应用产品博览会(简称智博会)

在宁波举办。宁波智博会是我国首个以“智慧城市”为主题的国家级重点展会也是国内智

慧城市领域举办时间最久、规格层次最高、规模效应最大、行业影响最强的盛会。

首届广東国际机器人及智能装备博览会

由广东省工业和信息化厅、

东莞市人民政府联合主办

先进机器人、智能装备及其零部件的交流方面取得偅大成果。

月中国(雄安)国际绿色城市智慧博览会将在雄安举办

月以“见智见未来”为主题的全球人工智能产品应用博览会将在苏州舉办。

月第十五届中国北京国际智能制造装备产业展览会将在北京召开

我要回帖

 

随机推荐