第一天玩啥也看不懂的抽象画,一定要抽图灵吗

&p&2018,科技将如何改变世界?来看以下12位科学家的预测:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-c3a22fdd314c71e2da95b278a41a7f1b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&3802& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-c3a22fdd314c71e2da95b278a41a7f1b_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-af2b58f3deac_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&3928& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-af2b58f3deac_r.jpg&&&/figure&&p&&b&更多技术干货敬请关注云栖社区知乎机构号:&a href=&https://www.zhihu.com/org/a-li-yun-yun-qi-she-qu-48& class=&internal&&阿里云云栖社区 - 知乎&/a&&/b&&/p&
2018,科技将如何改变世界?来看以下12位科学家的预测:更多技术干货敬请关注云栖社区知乎机构号:
&p&&i&摘要:&/i& 内容化已经成为淘宝近几年发展的重点,我们可以在手机淘宝APP(以下简称手淘)上看到很多不同的内容形式和内容型导购产品,例如,“有好货”中的以单个商品为主体的富文本内容,“必买清单”中的清单,即围绕一个主题来组织文本和商品的长图文型内容,等等。&/p&&p&作者:夜胧&/p&&p&原文:&a href=&http://link.zhihu.com/?target=http%3A//click.aliyun.com/m/41949/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&click.aliyun.com/m/4194&/span&&span class=&invisible&&9/&/span&&span class=&ellipsis&&&/span&&/a& &/p&&h2&&b&一. 引言&/b&&/h2&&p&内容化已经成为淘宝近几年发展的重点,我们可以在手机淘宝APP(以下简称手淘)上看到很多不同的内容形式和内容型导购产品,例如,“有好货”中的以单个商品为主体的富文本内容,“必买清单”中的清单,即围绕一个主题来组织文本和商品的长图文型内容,等等。不同于商品的形式,内容可以从不同的维度组织商品,从更丰富的角度去描述商品、定义商品,丰富了手淘的产品形式,提供给了用户更多有价值的购物信息。&/p&&p&随着手淘内容化战略的持续推进,我们也在内容自动化生成上持续探索,并构建了“智能写手”这个产品,旨在利用淘宝的海量数据,结合人工经验和知识输入,逐步实现内容的自动化、规模化生产,和人工编写的更高质量的内容一起,带给用户更丰富、更有价值的信息。经过一段时间的沉淀,目前智能写手在短文案生成、标题生成、商品推荐理由生成、图文型内容(清单)生成上都取得了一定的进展,期间针对若干文本生成的问题也进行了不同程度的优化。&/p&&p&在刚过去的2017年双十一中,智能写手主要做了两件事情,一是支持了大规模实时个性化生成双十一会场入口的短文案(下面称作“智能利益点”项目),保守估计生成了上亿的文案,提升了引导效率;二是进行了图文型清单的生产和投放试水,收集到了用户的直接数据反馈,验证了方案的有效性。&/p&&p&&b&1.1 智能利益点&/b&&/p&&p&在每年的双11大促中,手淘首页、主会场等大促活动的主要流量通道上都会有很多的会场入口(参见图1-图4),会场入口一般由三部分构成,分别是会场名称、利益点文案和商品图片素材。其中,利益点往往表达了一个商品或者一个大促会场最核心的亮点,是商家、运营提升点击效果的一个抓手。传统生产利益点文案的方式,有以下特点:&/p&&p&1.受限于数量和人力成本,一个商品或者会场的利益点一般不会超过三个,大多数情况只有一个利益点,这有时会导致利益点文案和商品不匹配的case发生,影响用户体验。&/p&&p&2.用户对一个商品不同的卖点或者说不同的文案表述的关注度是不同的,例如有人关注性价比,有人关注品质等等,人工编辑的较少的利益点文案没办法提供多样的信息,不利于引导效率的提升。&/p&&p&因此,这次双十一,智能写手和首页推荐算法团队、大促平台算法团队一起合作了智能利益点项目,分别在手淘首页人群会场入口、猫客首页人群会场入口、猫客首页标签会场入口、双十一主会场行业会场入口、双十一主会场标签会场入口等多个场景上线了智能利益点。几个场景样式详见以下图片,其中用红色虚线框起来的使用了智能利益点的会场入口的实际效果:&/p&&figure&&img src=&http://pic2.zhimg.com/v2-fe730c79fbdc5ef65c3b8d8c5289a45d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&836& data-rawheight=&1572& class=&origin_image zh-lightbox-thumb& width=&836& data-original=&http://pic2.zhimg.com/v2-fe730c79fbdc5ef65c3b8d8c5289a45d_r.jpg&&&/figure&&p&我们在双十一期间做了分桶测试,相比使用人工编辑利益点文案的分桶,智能利益点的分桶在多个场景都取得了用户点击率两位数左右的提升,这个提升是在各个场景自身优化效果的基础上的额外提升,还是比较可观的,这也说明了文案个性化生成确实给用户带来了更多的有价值的信息。&/p&&p&&b&1.2 图文型清单生成&/b&&/p&&p&在手淘中,图文型清单是一种重要的商品组织形式,可以理解为有主题的商品集合富文本内容,主要由人工编辑而成,生产清单费时费力,尤其在大促期间,要短时间内生产大量的清单更是一个很大的挑战。这次双十一,智能写手也参与到这个工作中,结合在文本内容生成上的沉淀,生产了少量单品盘点类型的清单,具体样式如下:&/p&&figure&&img src=&http://pic3.zhimg.com/v2-3bea137c090d732a4d2a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&823& data-rawheight=&783& class=&origin_image zh-lightbox-thumb& width=&823& data-original=&http://pic3.zhimg.com/v2-3bea137c090d732a4d2a_r.jpg&&&/figure&&p&为了验证智能写手生成的清单的效果,我们在双十一期间小流量上线,和人工编辑的清单进行了分桶测试。对比人工编辑的单品盘点清单,智能写手清单在平均商品点击转化率上的表现要更好。&/p&&p&下面我们将分别介绍智能写手在智能利益点和图文清单生成两部分的工作。&/p&&h2&&b&二. 智能利益点&/b&&/h2&&p&智能利益点解决的问题是,给定任意一个商品,挖掘这个商品各个潜在的卖点,并根据挖掘出来的用户偏好,从商品卖点集合中圈定用户最感兴趣、最可能点击的卖点,然后基于这些卖点实时生成一小段6个字以内的文案。利益点生成的解决方案主要分为这么几部分:&/p&&p&1.用户的偏好挖掘:主要基于用户的离线和实时行为数据来做,通过挖掘得到用户的TOP K个偏好标签集合。由于线上系统性能的限制,我们不可能使用用户所有行为过的标签,于是我们构建了用户偏好标签的排序模型对标签进行优选。&/p&&p&2.商品的卖点挖掘:卖点挖掘更多的依赖一些基础的数据,包括商品的标签库、属性库、人工编辑的信息等等。&/p&&p&3. 利益点文案的实时个性化生成:首先,我们提出了PairXNN模型,用于预估用户对一个商品的卖点的点击概率,然后,根据不同的场景要求选择合适的卖点,基于语义规则和人工设计的模板进行利益点文案的实时个性化生成。&/p&&p&下面主要介绍PairXNN的细节。&/p&&p&&b&2.1 PairXNN概要&/b&&/p&&p&在商品卖点的点击率预估问题中,我们把用户偏好标签和商品卖点都用文本的方式进行了表示,因此我们选择的base模型是Aliaksei Severyn[1]的工作,他们的工作主要解决短文本pair的排序问题。在经过不断迭代实验优化后,我们最终形成了我们的PairXNN网络结构,如下图所示:&/p&&figure&&img src=&http://pic1.zhimg.com/v2-f16eaeff1c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&876& data-rawheight=&724& class=&origin_image zh-lightbox-thumb& width=&876& data-original=&http://pic1.zhimg.com/v2-f16eaeff1c_r.jpg&&&/figure&&p&模型包含几个主要的部分:&/p&&p&1.用户偏好和商品卖点的语义表示:由于用户的偏好标签量比较大,如何对用户的大量偏好标签进行更深层次的偏好挖掘,是这个部分要解决的重点问题。&/p&&p&2.Multi-level的相似度模块:在不同的语义层级上计算用户偏好和商品卖点的相似度。&/p&&p&3.Additional Features:引入人工定义的额外的特征,辅助模型效果。例如用户偏好的特征、卖点的统计类特征、用户偏好和卖点的overlap特征等。&/p&&p&整个PairXNN模型的训练和在线预测是基于我们内部自研的XTensorflow平台进行搭建。&/p&&p&&b&2.2 语义表示&/b&&/p&&p&在对用户侧的偏好标签做语义抽取的时候,考虑到用户偏好标签的特殊性,它不是一个真正的有合理语义意义的句子,因此我们尝试了多种不同的语义表示的网络结构,包括全连接DNN、和[1]一样的CNN、Gated CNN[3]、self-attention[2] 和tailored attention。&/p&&p&其中,Gated CNN是对传统的CNN结构做了优化,加入了gate机制,可以决定哪些信息更为重要,需要保留或者说舍去哪些信息。而采用Self-attention则是考虑到对于用户的偏好标签序列,需要更关注全局的语义相关性。tailored attention则是我们为了优化性能,简化语义表示网络所提出的新结构,因为智能利益点的场景都是重要场景,流量很大,对性能要求比较高。最终经过双十一期间的线上分桶测试,Gated CNN在网络性能和效果上综合最优,于是双十一全量上线的模型中采用Gated CNN的语义表示网络结构。&/p&&p&&b&2.3 Multi-level相似度模块&/b&&/p&&p&除了上述对于user和item侧信息的映射和抽取,为了计算用户和利益点的相关性,我们从两个不同的语义层次对用户偏好标签和商品卖点的相似度计算,分别是:&/p&&p&1.对用户偏好标签embedding层输出和商品卖点embedding层输出的cosine similarity计算。&/p&&p&假定用户侧所有词的embedding矩阵为 ,商品侧词的embedding矩阵为 ,那么两侧词之间一一对应的余弦相似度(embedding已归一化)为:&/p&&figure&&img src=&http://pic4.zhimg.com/v2-694bc429dacf13abe671d0c3c9530d9b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&424& data-rawheight=&76& class=&origin_image zh-lightbox-thumb& width=&424& data-original=&http://pic4.zhimg.com/v2-694bc429dacf13abe671d0c3c9530d9b_r.jpg&&&/figure&&p&我们还在这个基础上做了global pooling,分别为max pooling/min pooling/average pooling,得到3个数值。将上式得到的相似度打平后,与pooling层得到的结果concat成一维向量共同输入至下一层。&/p&&p&2.对用户偏好标签的语义表示和商品卖点的语义表示计算bilinear similarity。&/p&&p&定义一个矩阵M去连接用户侧向量 ,商品侧向量 ,公式如下:&/p&&figure&&img src=&http://pic4.zhimg.com/v2-1e418cf3d68a1fd8ba86410daad222df_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&306& data-rawheight=&61& class=&content_image& width=&306&&&/figure&&p&其中&/p&&figure&&img src=&http://pic2.zhimg.com/v2-170f5ee05af9a5d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&161& data-rawheight=&54& class=&content_image& width=&161&&&/figure&&p&为相似度矩阵。这相当于将user侧的输入映射为 :&/p&&figure&&img src=&http://pic4.zhimg.com/v2-4dbbbbcefbb3d16f2878c7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&154& data-rawheight=&45& class=&content_image& width=&154&&&/figure&&p&由于此时M是可训练的,这样就可以更好的将user侧和item侧的空间靠近,提升相似度的准确性。&/p&&p&线上实验结果表明,两个层次的相似度叠加使用的ctr要优于单独使用。&/p&&h2&&b&三. 图文型清单生成&/b&&/h2&&p&一个图文型清单一般都有一个明确的主题,围绕这个主题进行相应的文本描述和商品推荐。针对这个特征,我们的解决方案包括以下几个部分:&/p&&figure&&img src=&http://pic4.zhimg.com/v2-15ad270dd18576cbadfc7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&775& data-rawheight=&333& class=&origin_image zh-lightbox-thumb& width=&775& data-original=&http://pic4.zhimg.com/v2-15ad270dd18576cbadfc7_r.jpg&&&/figure&&p&1.主题。这个主题可以由外界(运营)输入,也可以基于我们主题发现所沉淀的主题库进行选择。&/p&&p&2.选品。确定了主题之后,我们根据这个主题从精品库中选取和主题相关性高且质量不错的商品,然后以一定的目标组合成一个个的清单(一般一个清单包含6-10个商品)。&/p&&p&3.商品推荐理由生成。为每个清单的商品生成一段40-80个字的推荐理由。&/p&&p&4.标题生成。根据清单内的商品信息,给清单取一个概括主题又吸引用户点击的标题。清单标题要求相对简短,一般不长于20个字。例如:“懒人沙发椅,沉溺初秋慵懒美时光”。&/p&&p&&b&3.1
Deep Generation Network&/b&&/p&&p&图文型清单生成中的两个模块,商品推荐理由的生成和标题生成,我们把他们归类为自然语言生成(NLG)问题,都可以定义为依赖输入信息的文本生成问题。其中,商品推荐理由生成问题中,输入的是商品的信息,而清单标题中输入的是商品集合的信息。于是,我们采用了最近比较流行的Encoder-Decoder深度神经网络模型框架来解决,基于Attention based Seq2Seq[5-6]的base model,最终形成了我们的Deep Generation Network。&/p&&figure&&img src=&http://pic3.zhimg.com/v2-989d3a1ae7d9bd1da45296_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&865& data-rawheight=&539& class=&origin_image zh-lightbox-thumb& width=&865& data-original=&http://pic3.zhimg.com/v2-989d3a1ae7d9bd1da45296_r.jpg&&&/figure&&p&下面介绍几个比较主要的部分。&/p&&p&&b&3.1.1 样本&/b&&/p&&p&样本的质量和数量是模型效果的基础,我们基于淘宝上的人工编写的商品推荐理由数据和清单标题数据进行了清洗,筛选得到符合我们目标的样本集数据。&/p&&p&&b&3.1.2 coverage attention model[8]&/b&&/p&&p&在推荐理由生成中经常会出现多个内容重复描述同一个输入信息的情况,或者是对于输入信息在推荐理由中没有涉及。这个问题类似于机器翻译问题中“过译”和“漏译”的问题。在传统的统计机器翻译方法中,有coverage set的概念,去记录输入source文本哪些已经被翻译过了,而之后的模型主要考虑将没有翻译过的文本进行翻译。在深度学习中,是通过coverage model的方式和attention model做结合,达到这样的效果。&/p&&p&原来attention的计算方式如下:&/p&&figure&&img src=&http://pic1.zhimg.com/v2-2dce4a78fdcf96038dddb7c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&481& data-rawheight=&147& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&http://pic1.zhimg.com/v2-2dce4a78fdcf96038dddb7c_r.jpg&&&/figure&&p&&br&&/p&&figure&&img src=&http://pic4.zhimg.com/v2-dd0d14aed01a8b5f366c1893_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&873& data-rawheight=&569& class=&origin_image zh-lightbox-thumb& width=&873& data-original=&http://pic4.zhimg.com/v2-dd0d14aed01a8b5f366c1893_r.jpg&&&/figure&&p&&b&3.1.3 context gate[9]&/b&&/p&&p&在推荐理由的输出当中,模型的主体是基于RNN的seq2seq架构,那么在decoder的输出端的输出,主要受2部分影响:&/p&&p&1. 一部分是encoder的输入&/p&&p&2. 另一部分是当前step的前一个step的输出。&/p&&p&那么对于不同的输出,两部分的影响应该是不同的,比如说,当前一个输入词是虚词时,主要的信息应该由encoder影响,但是如果前一个词和当前词明显有相关性时,当前词的主要应该由前一个词影响。所以,我们考虑加入context gate,对这种情况进行建模。&/p&&p&公式如下:&/p&&figure&&img src=&http://pic2.zhimg.com/v2-04d3b8ed8cb5d2bb0eb7a9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&765& data-rawheight=&85& class=&origin_image zh-lightbox-thumb& width=&765& data-original=&http://pic2.zhimg.com/v2-04d3b8ed8cb5d2bb0eb7a9_r.jpg&&&/figure&&figure&&img src=&http://pic2.zhimg.com/v2-a5d85141bda0a8a2eb5dc143ac4575d9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&818& data-rawheight=&147& class=&origin_image zh-lightbox-thumb& width=&818& data-original=&http://pic2.zhimg.com/v2-a5d85141bda0a8a2eb5dc143ac4575d9_r.jpg&&&/figure&&p&&b&3.1.4 Beam Search&/b&&/p&&p&在前文中提到用RNN生成语句时,在每个时刻取输出结果中概率最大的词作为生成的词,是比较greedy的做法,没有考虑词的组合因素,因此,我们在seq2seq的实验中也尝试了beam search。beam search只在predict的时候使用,举个例子,当beam search size=2时,每个时刻都会保留当前概率最大的两个序列。&/p&&p&beam search在实践过程中很有用,它提供了一种很好的对生成序列进行干预的基础,一方面你可以对beam search的候选集的选择以及最终序列的选择做定制化的处理,比如你的选择目标,另一方面,对一些模型还不能完全保证解决的bad case(例如重复词出现等),可以在beam search中进行处理。&/p&&p&&b&3.1.5 CNN&/b&&/p&&p&对于我们生成清单标题的问题,由于输入是多个商品的文本内容,商品文本之间并没有真正的序列关系,反而更需要一个类似主题特征抽取的部分,从而能根据主题进行标题的生成。而CNN在句子分类已经有不错的应用[7]了,于是我们在清单标题生成问题中,采用了CNN作为Encoder,实验结果也表明CNN比LSTM在标题生成的主题准确率上要高。&/p&&p&&b&3.1.6 Reinforcement Learning&/b&&/p&&p&我们在训练和预测的时候会碰到下面2个问题:&/p&&p&1. 训练和预测的环境是不同的,训练在decoder的每次的输出,依赖的是前一个位置的ground truth的输入,而预测的时候是前一个位置predict的输出,原因是训练时候如果就依赖predict的结果的话,会造成损失累计,训练非常难收敛。&/p&&p&2. 我们的评价目标是BLEU[11]值,这是整个句子生成之后和样本之间的对比,而我们在训练的时候是对于每一个位置的predict label计算loss,那么造成了评价和训练目标的差别,并且BLEU是一个整体目标,相当于是个延迟的reward。&/p&&p&综上所述非常适合利用reinforcement learning的方式[10]来解决。对于这样一个强化学习问题,首先我们定义这个问题的3个要素:&/p&&p&1. action:每一个timestep选择的候选词&/p&&p&2. state:每一个timestep的hidden state&/p&&p&3. reward:最终的BLEU值&/p&&p&算法流程如下:&/p&&p&1. warm start:依旧利用原来的方法去训练模型,达到相对收敛的状态。&/p&&p&2. 逐渐在decode的末尾加入强化学习的方式,例如从倒数第一个位置加入强化学习,当收敛较好了,再从倒数第二个位置开始加入。&/p&&p&Loss定义如下:&/p&&figure&&img src=&http://pic2.zhimg.com/v2-ed47ebfdf76a8de6cb1ca9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&702& data-rawheight=&173& class=&origin_image zh-lightbox-thumb& width=&702& data-original=&http://pic2.zhimg.com/v2-ed47ebfdf76a8de6cb1ca9_r.jpg&&&/figure&&p&3. 选择的action的时候,使用的是KNN的方式。本文是使用REINFORCE算法,是policy gredient的方式,并且文本的action空间非常大,所以比较难收敛。我们使用原来的predict方式打分,分数高的N个词作为候选词。然后这些词和policy gredient选出的词,做KNN,距离是embedding后的距离,选择距离最近的作为action。&/p&&p&4. 最终,除了第一个timestep还保留着期望的输入,其余都将是强化学习的方式。&/p&&p&&b&3.2 效果展示&/b&&/p&&p&这里展示部分在测试集上生成的标题和推荐理由,给大家一些直观的感觉:&/p&&p&清单标题&/p&&ul&&li&卫衣,穿出你的青春活力&/li&&li&加绒牛仔裤,让你的冬天更有范&/li&&li&牛仔外套,穿出帅气的你&/li&&li&羊羔毛外套,温暖整个冬天&/li&&li&穿上格子装,让你秒变女神&/li&&li&职场新人,职场穿搭指南&/li&&li&穿上白衬衫,做个安静的女子&/li&&li&穿上蕾丝,做个性感的女子&/li&&/ul&&p&商品推荐理由&/p&&ul&&li&这件针织款连衣裙采用了v领的设计,露出性感的锁骨,性感显优雅,衣身的撞色拼接,丰富了视觉效果,更显时尚感。&/li&&li&简约的圆领设计,修饰颈部线条,中长款的设计,显得优雅又大方,干净素雅,展现出清新的文艺风格,在端庄中流露出一股优雅的气质。&/li&&li&假两件的设计,让你的身材更加的修长,宽松的版型,穿着舒适,不挑身材,时尚百搭,轻松穿出时尚感。&/li&&/ul&&h2&&b&四. 展望&/b&&/h2&&p&智能写手在双十一的智能利益点和图文清单生成上拿到了初步的效果,但是仍然还存在很多问题待解决,后续我们将在如下方面继续探索和优化:&/p&&p&1. 效果评估。现在采用BLEU、覆盖率、准确率、人工评测结合的方法来评估效果,但BLEU和实际目标不完全一致,人工评测成本又较高,需要有更好的评价方案。&/p&&p&2. 更丰富的输入信息。引入包括商品图像、用户评价等在内的信息,除了可以解决输入输出的不一致外,还能给用户提供更有价值的内容。&/p&&p&3.语言生成理解。通过模型的可视化,可以分析bad case的根源,优化模型。&/p&&p&4. 机器生成方面目前还有描述的准确度、多样性问题需要解决,另外考虑到很多缺少足够样本的业务也有生成的需求,模型是否能具备迁移能力也是一个可能的方向。&/p&&h2&&b&五. 关于团队&/b&&/h2&&p&阿里巴巴推荐算法团队目前主要负责阿里电商平台(包括淘宝、天猫、Lazada等)的商品及feeds流推荐,其中用户导购场景个性化,首页首图个性化、猜你喜欢、购买链路等场景每天服务数亿用户,涉及智能文本生成、流量效率提升、用户体验、提高商家及达人参与淘宝的积极性,优化商业生态运行机制。&/p&&p&欢迎热爱算法,对业务有好奇心,有合作精神的同学一起工作、成长。简历可投邮箱:&/p&&p&&/p&&p&或者guli. &/p&&p&或者jinxin.hjx@alibaba-inc.com&/p&&p&西湖湖畔,翘首以盼,等你来信~&/p&&h2&&b&六. 参考文献&/b&&/h2&&p&[1] Severyn A, Moschitti A. Learning to rank short text pairs with convolutional deep neural networks[C]//Proceedings of the 38th&/p&&p&International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2.&/p&&p&[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin.&/p&&p&Attention is all you need. arXiv preprint arXiv:,2017.&/p&&p&[3] Dauphin Y N, Fan A, Auli M, et al. Language modeling with gated convolutional networks[J]. arXiv preprint arXiv:,2016.&/p&&p&[4] Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[C]//Advances in&/p&&p&Neural Information Processing Systems. -4906.MLA&/p&&p&[5] Neural Machine Translation by Jointly Learning to Align and Translate&/p&&p&[6] Rush A M, Chopra S, Weston J. A neural attention model for abstractive sentence summarization[J]. arXiv preprint arXiv:, 2015.&/p&&p&[7] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:, 2014.&/p&&p&[8] Tu Z, Lu Z, Liu Y, et al. Modeling coverage for neural machine translation[J]. arXiv preprint arXiv:, 2016.&/p&&p&[9] Tu Z, Liu Y, Lu Z, et al. Context gates for neural machine translation[J]. arXiv preprint arXiv:, 2016.&/p&&p&[10] Sequence Level Training with Recurrent Neural Networks, ICLR 2016.&/p&&p&[11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: A method for automatic evaluation of machine translation.&/p&&p&&b&更多技术干货敬请关注云栖社区知乎机构号:&a href=&https://www.zhihu.com/org/a-li-yun-yun-qi-she-qu-48& class=&internal&&阿里云云栖社区 - 知乎&/a&&/b&&/p&&p&&/p&
摘要: 内容化已经成为淘宝近几年发展的重点,我们可以在手机淘宝APP(以下简称手淘)上看到很多不同的内容形式和内容型导购产品,例如,“有好货”中的以单个商品为主体的富文本内容,“必买清单”中的清单,即围绕一个主题来组织文本和商品的长图文型内容…
&figure&&img src=&https://pic4.zhimg.com/v2-22d0c46fc0e88b9b5993_b.jpg& data-rawwidth=&400& data-rawheight=&294& class=&content_image& width=&400&&&/figure&&p&如今,风格迁移(style transfer)迅速成为人工智能(AI)研究领域的热门话题之一。一些艺术画风格的图片处理工具,如:Prisma、Icon8、DeepArt、Ostagram等风靡全球,它们使用人工智能算法将普通的生活照片变身为大师级艺术风格照。实际上,风格迁移是一种对图片风格进行转换的技术,运用这种技术,我们可以很容易地让普通照片拥有强烈的艺术感和艺术效果(如下图)。广义上来说,它包括颜色、纹理、艺术表现形式之间的风格转换。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-05a24b249ff94a7af49d508c2bcc52cc_b.jpg& data-rawwidth=&1430& data-rawheight=&376& class=&origin_image zh-lightbox-thumb& width=&1430& data-original=&https://pic1.zhimg.com/v2-05a24b249ff94a7af49d508c2bcc52cc_r.jpg&&&/figure&&p&虽然相关应用和处理工具近几年才受人追捧,但其实这种技术在视觉领域已经被研究了很长一段时间了。过去的技术只能简单地处理一些颜色、纹理的合成,对于特别抽象的艺术风格,必须要有针对性,需一种一种风格进行区别地处理。然而最近随着深度学习的发展,已经有一些利用神经网络来处理风格迁移的方法了。这些方法更具普适性、能自如地处理很难的风格转化。目前这些风格迁移的方法主要可以分为两类:&br&&/p&&br&&p&1. &strong&基于优化(optimization)&/strong&的方法,如Gatys[4],Li[6],这些方法能够产生非常不错的风格迁移效果,但需要数分钟的优化迭代才能产生最终的结果。 &/p&&br&&p&2. &strong&前馈神经网络(feed-forward network)&/strong&的方法,如Johnson[5],Ulyanov[7]。这些方法针对不同的风格图片训练了不同的前馈神经网络 ( feed-forward network)。随之原来耗时的优化过程被一次网络的前传(forward)所替代,基本可以实现实时的风格迁移。但这些方法有两个非常重要的缺陷:一是对于不同的风格图片,都需要训练一个单独的网络模型, 不仅耗时而且需要大量的存储空间;二是这些训练好的神经网络像一个黑盒子(black-box ) 一样,无从得知它真正有效的工作原理。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-3afdfcdfb217c7a9cdc45cfe_b.jpg& data-rawwidth=&640& data-rawheight=&308& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-3afdfcdfb217c7a9cdc45cfe_r.jpg&&&/figure&&p&就在最近,微软亚洲研究院视觉计算组的研究员和实习生们陆续地发表了三篇关于艺术风格化的论文。让我们一起来探究其中的新技术和新成果!&/p&&br&&br&&br&&h2&&strong&1.
StyleBank: 语义内容和艺术风格化可分离学习的神经网络&/strong&&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-4dfeb1e4aaffd_b.jpg& data-rawwidth=&640& data-rawheight=&178& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-4dfeb1e4aaffd_r.jpg&&&/figure&&p&针对多风格迁移的问题,微软亚洲研究院的研究员们提出了一种新的风格迁移算法,并发表在了CVPR 2017。该算法对图像的风格提供了一种&strong&显式的表达“风格基元” ( StyleBank )&/strong&,并与传统的纹理合成技术中的纹理基元(texton ) 联系起来,通过对不同风格的图片使用不同的“风格基元”,再用简单的自解码器模型 ( auto-encoder ) 便可以实现不同风格的迁移。而且在训练的过程中,显式地对图像的内容和风格进行分离 ( decouple ) ,让图像自解码器与风格基元之间的学习相互独立,由此给风格迁移的实际用途带来了诸多好处:可以做到快速训练 (将一种艺术风格效果的训练时间从4-5小时减少到10分钟以内),快速调整想要的效果图,从而实现多种风格间的融合;还可以做到对图片的某一部分进行风格提取,再融合到目标图片上。&/p&&br&&p&这个想法源于经典的&b&纹理合成算法&/b&。纹理合成可以等效为纹理基元和位置脉冲函数(Delta function)之间的卷积。与之类似,我们也希望能够将基于神经网络的风格迁移等效为图片特征响应与特定风格基元的卷积, 只不过这个卷积是定义在高维的特征空间而不是原始的图像空间,不同的风格会对应不同的风格基元。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-fd4af322bcabdf5e61f71e0f7ba0d4f7_b.jpg& data-rawwidth=&640& data-rawheight=&210& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-fd4af322bcabdf5e61f71e0f7ba0d4f7_r.jpg&&&/figure&&p&虽然不同的风格被表示为不同的风格基元,但却共享相同的自编码器。在训练过程中,我们可以把上面的网络分成两个独立的分支(如下图):
自编码器分支(Auto-encoder branch,实线)和风格化分支(Stylizing branch,虚线), 通过切换学习,从而对图像的内容和风格的进行分离。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d429a9cecb121b8e444efc_b.jpg& data-rawwidth=&640& data-rawheight=&148& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-d429a9cecb121b8e444efc_r.jpg&&&/figure&&p&风格基元(StyleBank)的神经网络结构图&/p&&br&&p&为了更好的理解风格基元的工作原理,我们对训练学到的风格基元进行了可视化, 实际上它表达了风格图片中不同的纹理单元,而这与经典的纹理合成一脉相承。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-f8cb620e62daa753_b.jpg& data-rawwidth=&640& data-rawheight=&144& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-f8cb620e62daa753_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-a5bd7d287abfb_b.jpg& data-rawwidth=&640& data-rawheight=&237& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-a5bd7d287abfb_r.jpg&&&/figure&&p&&strong&风格基元(StyleBank)的优势:&/strong&&/p&&br&&p&与以往的前馈神经网络方法相比,可分离的表达和学习有诸多优势,如下表所示。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-329afafbc94_b.jpg& data-rawwidth=&640& data-rawheight=&264& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-329afafbc94_r.jpg&&&/figure&&p&&strong&多风格协同训练 &/strong&&strong&:&/strong&与以往单风格模型相比(需要4小时训练一种风格),风格基元支持一个网络多风格协同训练,以50个风格为例,平均每个风格训练耗时16分钟,而试验中曾尝试过175个风格一起协同训练同一个网络。这样额外带来的好处就是可以大幅降低模型的大小,比如一个风格只需要0.56MB,而以往的模型如Johnson[5]则需要6.4MB。&br&&/p&&br&&p&&strong&快速增量训练&/strong&&strong&: &/strong&对于新的风格图片或者超参配置,以前的单风格模型方法需要耗时几个小时重新训练一个模型。而在我们的方法中,由于对图片的内容和风格进行了分离,风格基元(StyleBank)与自编码器(Auto-encoder)的学习相互独立,因此,我们可以固定已经训练好的自编码器和已经训练好的风格的“风格基元”层,只训练与新的风格相关的风格基元层,而这个过程一般只需要8~10分钟。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-d798dcea90a7c80cf60bbcab_b.jpg& data-rawwidth=&640& data-rawheight=&338& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-d798dcea90a7c80cf60bbcab_r.jpg&&&/figure&&br&&p&左图展示增量学习和重新学习的效果差别,中间和右图分别展示了增量学习不同风格权重以及基于不同风格层设定的Loss的效果&br&&/p&&br&&p&&strong&快速风格切换&/strong&&strong&:&/strong&在实际应用场景(如APP滤镜)中,对于同一张图片,用户经常需要在不同风格(滤镜)间进行切换。对于我们的方法, 由于不同风格共享相同的自解码器,所以只需要对输入图片进行一次编码,这在不做其他优化的情况下,就节省了将近一半的计算量。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bff517a68c5cfeab26b17c4c2b8de410_b.jpg& data-rawwidth=&1385& data-rawheight=&327& data-thumbnail=&https://pic1.zhimg.com/v2-bff517a68c5cfeab26b17c4c2b8de410_b.jpg& class=&origin_image zh-lightbox-thumb& width=&1385& data-original=&https://pic1.zhimg.com/v2-bff517a68c5cfeab26b17c4c2b8de410_r.gif&&&/figure&&br&&p&&strong&多风格线性融合&/strong&&strong&:&/strong&通过对不同风格的风格基元(StyleBank)进行组合,可以轻松实现不同风格的融合和过渡切换。&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-735ad0aa3a9ce6bb0eaff_b.jpg& data-rawwidth=&320& data-rawheight=&235& data-thumbnail=&https://pic2.zhimg.com/v2-735ad0aa3a9ce6bb0eaff_b.jpg& class=&content_image& width=&320&&&/figure&&p&&strong&区域性风格融合&/strong&&strong&:&/strong&同样对不同的图片区域运用不同的风格基元,还可以对不同的图片区域渲染不同的风格效果。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-224d4fa61c8eccd7828fdea_b.jpg& data-rawwidth=&640& data-rawheight=&673& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-224d4fa61c8eccd7828fdea_r.jpg&&&/figure&&br&&h2&&strong&2.
Video Style Transfer: 实时在线处理时空一致的视频风格转换&/strong&&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-16ec20df3a893fba62575_b.jpg& data-rawwidth=&640& data-rawheight=&232& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-16ec20df3a893fba62575_r.jpg&&&/figure&&p&在直播、短视频越来越流行的当下,对视频进行在线的风格转换也有着巨大的商业应用。但是如果不考虑视频的时序性,直接逐帧进行风格转换,那么转换后的视频通常都会有抖动和不连续的问题,而这是由单张图片风格转换本身的不稳定性所造成的。&/p&&br&&p&为了解决该问题,微软亚洲研究院的研究员们提出了&strong&第一个端到端 ( end-to-end ) 的在线视频风格迁移模型 ( Coherent Online Video Style Transfer )&/strong&。该模型通过考虑和传播短时(short-term)的时序信息来保证风格化视频的连续性和稳定性。此外,该模型已被证明可以应用到现有的单风格和多风格迁移网络上,并取得了相对于优化方法接近500倍的加速。&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-b8f8a6c3bf93bb79aedc52_b.jpg& data-rawwidth=&600& data-rawheight=&161& data-thumbnail=&https://pic2.zhimg.com/v2-b8f8a6c3bf93bb79aedc52_b.jpg& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic2.zhimg.com/v2-b8f8a6c3bf93bb79aedc52_r.gif&&&/figure&&p&对于相邻帧的连续性,一个简单而自然的想法就是:对于可追踪的区域(如下图第一行红框所示),我们用前一帧对应区域的特征以保证连续性,而对于遮挡区域,即不可追踪(如下图第一行绿框所示),则用当前帧的特征。实际上,这可以分为传播(propagation)和合成(composition)两个子任务。与在原始图像空间相比,特征空间对噪声等有更好的鲁棒性,因此我们选择在特征空间完成这两个子任务。&/p&&br&&p&具体来说,我们需要先估计两帧之间特征的相对运动,即特征运动场(&em&Wt&/em&),来传播前一帧的特征(&em&Ft-1&/em&)到当前帧(&em&Ft’&/em&), 这里运用了已有的deep feature flow算法 [8]。然后我们还需要检测两帧之间遮挡区域,即&em&M&/em&,来帮助有效的特征合成。最后得到既连续又没有重影的风格化结果(&em&Ot&/em&)。&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-689b9e84fb4e05daeac75fb_b.jpg& data-rawwidth=&640& data-rawheight=&346& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-689b9e84fb4e05daeac75fb_r.jpg&&&/figure&&p&另外,我们通过在时序上对短时的连续性(short-term consistency)进行传播,从而来保证长时间的连续性(long-term consistency)。这一过程可以用如下原理框图进行表示,其中,&img src=&https://www.zhihu.com/equation?tex=F_%7Bt%7D%5E%7Bo%7D+& alt=&F_{t}^{o} & eeimg=&1&&为&em&t&/em&时刻合成后的特征。&br&&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-c4fc869f8e4e1bb31a4882_b.jpg& data-rawwidth=&626& data-rawheight=&280& class=&origin_image zh-lightbox-thumb& width=&626& data-original=&https://pic2.zhimg.com/v2-c4fc869f8e4e1bb31a4882_r.jpg&&&/figure&&p&具体的两帧之间特征传播合成的网络结构Net1为:&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-54cb0a1fe46b_b.jpg& data-rawwidth=&640& data-rawheight=&153& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-54cb0a1fe46b_r.jpg&&&/figure&&p&我们在不同特征空间以及图像空间都进行了测试,当传播和合成发生在靠近网络的输入层时,得到的结果会有很强的闪烁效果,不连续。当发生靠近网络的输出层时,则得到的结果会有重影效果,不清晰。我们发现&strong&只有在最深层的特征空间(网络的最中间层)能够在结果的稳定性和清晰度上取得比较好的平衡&/strong&。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-5393dbcdb6e9f7da212906dff186b87c_b.jpg& data-rawwidth=&640& data-rawheight=&112& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-5393dbcdb6e9f7da212906dff186b87c_r.jpg&&&/figure&&p&另一个有意思的事情是,已经训练好的特征相对运动和遮挡区域的子网络是否可以直接运用到一个新的风格中去?对此我们称为可迁移性。而它对不同的前馈神经网络风格化方法(例如Johnson[5]和StyleBank[1]),表现却不尽相同。&/p&&br&&p&下表给出了,前馈神经网络风格化网络通过风格A训练得到,而特征相对运动和遮挡区域的子网络通过风格B训练得到,(注:multiple表示多种风格一起用来训练但不包括A),最后我们衡量风格化的结果是否具有连续性(&em&estab&/em&)。通过分别对比第一二行,或第三四行,我们可以看到, 风格基元(StyleBank)网络[1]具有比Johnson[5]更稳定连续的结果,连续性不因B的不同而改变。这也说明风格基元这种可分离学习的网络具有更好的可迁移性。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8d2e189a16c9b61ea3b58b6f2ee623d1_b.jpg& data-rawwidth=&640& data-rawheight=&161& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-8d2e189a16c9b61ea3b58b6f2ee623d1_r.jpg&&&/figure&&br&&h2&&strong&3.
Deep Image Analogy: 基于语义级别的跨风格图像匹配与合成&/strong&&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-bacbe35e43dad5f9852f01_b.jpg& data-rawwidth=&640& data-rawheight=&102& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-bacbe35e43dad5f9852f01_r.jpg&&&/figure&&p&不同于目前用神经网络处理艺术风格的方法,这篇论文研究的是更为精确和精致的视觉特征转化。图像的视觉特征包含图像中的颜色、纹理、亮度、线条等等。不同图像之间视觉特征的转换往往带来新奇、有趣的体验,比如实现两种风格之间的相互转换(见下图第一行),真实照片和艺术画之间的相互转换(见下图第二行),两张不同照片之间色彩纹理的相互转换(见下图第三行)。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-6ad082bb98c8b614aeac67c_b.jpg& data-rawwidth=&640& data-rawheight=&420& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-6ad082bb98c8b614aeac67c_r.jpg&&&/figure&&p&针对图像视觉特征的迁移问题,微软亚洲研究院的研究员们提出了一种新的算法(Deep Image Analogy [1])。该算法结合图像对偶技术(Image Analogy)和深度神经网络(DNN),&strong&为内容上相关但视觉风格迥异的两张图像之间建立起像素级的对应关系&/strong&,从而实现精确地视觉特征迁移。该算法支持照片的艺术风格化,古今中外不同艺术风格的互换,素描或者CG图的真实化,照片的颜色转换等等应用。该文章出现在arXiv的第一天,就因其出色的结果,在reddit的machine learning版块引发广泛地热议,并成为该版历史上No.1点赞最高的话题,&a href=&https://link.zhihu.com/?target=https%3A//github.com/msracver/Deep-Image-Analogy& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&代码和演示程序&/a&已经可供下载。&/p&&br&&p&基于迭代优化(optimization)的方法(如Gatys[4],Li[6])和前馈神经网络 (feed-forward network)的方法(如Johnson[5], 以及StyleBank[1]),都是基于拟合目标图像整体的特征,而忽视了图像间像素的对应关系。这就导致最后的迁移结果在整体上吻合目标风格但局部会有错误,例如下图中脸部结构被参考图像中的背景纹理所破坏。而我们的方法因寻求建立源图像和参考图像之间的对应关系,所以可以精确地迁移对应区域的视觉特征。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-e9aef5dead0cbe6a0a04d41_b.jpg& data-rawwidth=&630& data-rawheight=&207& class=&origin_image zh-lightbox-thumb& width=&630& data-original=&https://pic2.zhimg.com/v2-e9aef5dead0cbe6a0a04d41_r.jpg&&&/figure&&p&本论文的初始想法如下图所示。给定原图像A和目标图像B',由于它们在视觉风格上的差异性,所以直接建立二者之间的像素对应非常困难。因此,我们引入了&b&图像对偶&/b&的概念。假设存在图像A'和B,且存在这样的对偶关系:A:A' = B:B'。那么,该对偶关系隐含两条假设,1)A和A',同理B和B'是完全对齐的;2)A和B属于同一视觉风格而A'和B'属于另一视觉风格。&br&&/p&&br&&p&有了这两个假设, A&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&B'的跨风格映射关系则可以转化为一个相同位置的映射A&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&A'和一个统一风格内的映射A'&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&B',如下图所示。相似的我们可以通过B,转换B'&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&A的映射。利用A'和B建立起桥梁后,A和B'之间的映射问题就变得可解,然而A'和B却未知。鉴于此,我们又利用在图像识别任务上训练的卷积神经网络,逐步恢复出A'和B,在恢复的同时也逐步优化A和B'之间的映射。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-9b0d73dee5_b.jpg& data-rawwidth=&640& data-rawheight=&227& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-9b0d73dee5_r.jpg&&&/figure&&p&神经网络可以恢复A'和B的原因在于它具有分离(decouple)图像的内容和视觉细节的能力。例如在VGG网络中,输入图像被逐步过滤(filter),使得越上层的特征越代表图像的内容(语义结构等),而越下层的特征则越代表视觉细节(纹理颜色等)。因此我们可以使得通过融合A的内容结构与对应位置的B'的视觉细节重构A';同理可以重构B。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-8c0b6faeb80a048bd35cf_b.jpg& data-rawwidth=&640& data-rawheight=&436& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-8c0b6faeb80a048bd35cf_r.jpg&&&/figure&&p&Deep Image Analogy的工作框架图&/p&&br&&p&输入图像A和B'首先送入VGG网络得到每一层的特征图&img src=&https://www.zhihu.com/equation?tex=%5Cleft%5C%7B+F_%7BA%7D%5E%7BL%7D+%5Cright%5C%7D_%7BL%3D1...5%7D++& alt=&\left\{ F_{A}^{L} \right\}_{L=1...5}
& eeimg=&1&&,&img src=&https://www.zhihu.com/equation?tex=%5Cleft%5C%7B+F_%7BB%27%7D%5E%7BL%7D++%5Cright%5C%7D+_%7BL%3D1...5%7D+& alt=&\left\{ F_{B'}^{L}
\right\} _{L=1...5} & eeimg=&1&&。在最高层L=5,我们假设未知的A'的特征等于A的特征,未知的B的特征等于B'的特征。这种假设基于VGG的特性:最高层的特征只包含语义信息而与视觉特征相关性小。&/p&&br&&p&有了&img src=&https://www.zhihu.com/equation?tex=F_%7BA%7D%5E%7BL%7D& alt=&F_{A}^{L}& eeimg=&1&&,&img src=&https://www.zhihu.com/equation?tex=F_%7BA%27%7D%5E%7BL%7D& alt=&F_{A'}^{L}& eeimg=&1&&,&img src=&https://www.zhihu.com/equation?tex=F_%7BB%7D%5E%7BL%7D& alt=&F_{B}^{L}& eeimg=&1&&,&img src=&https://www.zhihu.com/equation?tex=+F_%7BB%27%7D%5E%7BL%7D+& alt=& F_{B'}^{L} & eeimg=&1&&四张特征图,我们再通过Patchmatch算法建立起该层A&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&B'和B'&img src=&https://www.zhihu.com/equation?tex=%5Crightarrow+& alt=&\rightarrow & eeimg=&1&&A这两个方向的对应关系:&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Ba%5Crightarrow+b%7D%5E%7BL%7D+& alt=&\Phi _{a\rightarrow b}^{L} & eeimg=&1&&和&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Bb%5Crightarrow+a%7D%5E%7BL%7D+& alt=&\Phi _{b\rightarrow a}^{L} & eeimg=&1&&。&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Ba%5Crightarrow+b%7D%5E%7BL%7D+& alt=&\Phi _{a\rightarrow b}^{L} & eeimg=&1&&通过上层采样可作为下层&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Ba%5Crightarrow+b%7D%5E%7BL-1%7D+& alt=&\Phi _{a\rightarrow b}^{L-1} & eeimg=&1&&的初始值,同时指导采样&img src=&https://www.zhihu.com/equation?tex=F_%7BB%27%7D%5E%7BL-1%7D+& alt=&F_{B'}^{L-1} & eeimg=&1&&中的值和&img src=&https://www.zhihu.com/equation?tex=F_%7BA%7D%5E%7BL-1%7D+& alt=&F_{A}^{L-1} & eeimg=&1&&融合得到未知图A'在L-1层的特征估计&img src=&https://www.zhihu.com/equation?tex=F_%7BA%27%7D%5E%7BL-1%7D+& alt=&F_{A'}^{L-1} & eeimg=&1&&。同理可得到另一未知图B在L-1层的特征估计&img src=&https://www.zhihu.com/equation?tex=F_%7BB%7D%5E%7BL-1%7D+& alt=&F_{B}^{L-1} & eeimg=&1&&。有了&img src=&https://www.zhihu.com/equation?tex=F_%7BA%27%7D%5E%7BL-1%7D+& alt=&F_{A'}^{L-1} & eeimg=&1&&和&img src=&https://www.zhihu.com/equation?tex=F_%7BB%7D%5E%7BL-1%7D+& alt=&F_{B}^{L-1} & eeimg=&1&&,L-1层的对应关系&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Ba%5Crightarrow+b%7D%5E%7BL-1%7D+& alt=&\Phi _{a\rightarrow b}^{L-1} & eeimg=&1&&和&img src=&https://www.zhihu.com/equation?tex=%5CPhi+_%7Bb%5Crightarrow+a%7D%5E%7BL-1%7D+& alt=&\Phi _{b\rightarrow a}^{L-1} & eeimg=&1&&就可得到更新。在每一层重复此算法,输入图像A和B'的对应关系便逐步细化,到底层L=1,我们便得到了A和B'之间每一个像素的对应关系。利用此关系拷贝对方对应位置的视觉特征,便可实现精确地风格转化。&/p&&br&&p&虽然图像匹配算法在视觉和图形学里是非常经典的问题,但目前很多非常流行的匹配算法,例如SIFT
flow、 Patchmatch、 Deepflow等,都是基于颜色、梯度、纹理等低级特征 (low-level feature),没有办法建立起风格(包括颜色、纹理、线条等)迥异的两张图像之间的对应关系,如下图所示。鉴于此,微软亚洲研究院的研究员们利用图像对偶技术(Image
Analogy)的框架和深度神经网络(DNN)提取的高层特征(high-level
feature), 则能完全建立图像间的语义对应(semantic
matching)。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-df22cf1bbfb9643b74adf_b.jpg& data-rawwidth=&640& data-rawheight=&179& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-df22cf1bbfb9643b74adf_r.jpg&&&/figure&&p&&strong&Deep Image Analogy&/strong&&strong&的丰富应用:&/strong&&/p&&br&&ul&&li&&p&&strong&图像的艺术风格化:&/strong&该技术的应用将可以使用户输入的图片自动地转化为给定的艺术风格,让艺术大师为你定制作画。&/p&&/li&&/ul&&figure&&img src=&https://pic1.zhimg.com/v2-9bf7a1c44dac18b56a971ebbac04f036_b.jpg& data-rawwidth=&640& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-9bf7a1c44dac18b56a971ebbac04f036_r.jpg&&&/figure&&p&注:每一组中右边图像为输入照片,上方两张为参考艺术画,下方两张为我们生成的结果。&/p&&br&&ul&&li&&p&&strong&艺术品的真实化&/strong&:该技术还可以将各种绘画,素描或者CG图转为真实的照片。&/p&&/li&&/ul&&br&&figure&&img src=&https://pic1.zhimg.com/v2-345d7aa2e4768919fae6b5_b.jpg& data-rawwidth=&640& data-rawheight=&523& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-345d7aa2e4768919fae6b5_r.jpg&&&/figure&&ul&&li&&p&&strong&艺术风格互换&/strong&&strong&:&/strong&则可以实现不同艺术风格间的互换。&/p&&/li&&/ul&&br&&figure&&img src=&https://pic1.zhimg.com/v2-476e3a2d394c3fac79bd0cd_b.jpg& data-rawwidth=&640& data-rawheight=&499& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-476e3a2d394c3fac79bd0cd_r.jpg&&&/figure&&ul&&li&&p&&strong&照片颜色转换:&/strong&还可以实现不同照片之间区域颜色的互换。&/p&&/li&&/ul&&br&&figure&&img src=&https://pic4.zhimg.com/v2-ec8c28c58d671a23c9495_b.jpg& data-rawwidth=&640& data-rawheight=&241& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-ec8c28c58d671a23c9495_r.jpg&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-c185bedfaba_b.jpg& data-rawwidth=&640& data-rawheight=&528& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-c185bedfaba_r.jpg&&&/figure&&p&然而,这个方法也还是有一些失败的例子,最典型的问题就是原图一些元素在参考图中找不到真正语义的对应。比如下图,参考图中并未找到头发,所以生成结果就会变得比较诡异。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-a9de3aadff1_b.jpg& data-rawwidth=&640& data-rawheight=&237& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-a9de3aadff1_r.jpg&&&/figure&&p&还有另一种情况就是,现在的风格转换还不能处理几何形变上的转换,如下图。&/p&&br&&figure&&img src=&https://pic2.zhimg.com/v2-1be32a786a222d03bae786_b.jpg& data-rawwidth=&640& data-rawheight=&235& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/v2-1be32a786a222d03bae786_r.jpg&&&/figure&&p&如今,人工智能正在逐渐展现出自己的“创造力”,而这将给我们的生活带来无限的新奇和乐趣。虽然短时间内人工智能还不可能像人类那样真正具有创造力,但是却可以一步步辅助人类更好地创造更多的艺术作品。而科研人员们对深度学习的探索也还远远不够,我们还需要更为深入的研究,让深度学习的工作可以被解释,这也将是我们下一阶段需要继续努力的方向。&/p&&br&&h2&&b&4. Microsoft Pix:让iPhone拍出自带大师范儿的照片&/b&&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-f990f1b6e5944dc3efcc2865c0efb7ac_b.jpg& data-rawwidth=&640& data-rawheight=&336& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-f990f1b6e5944dc3efcc2865c0efb7ac_r.jpg&&&/figure&&p&基于文中介绍的风格迁移技术,微软为iPhone和iPad打造的基于人工智能技术的相机应用Microsoft Pix最近推出了一项新功能,可以&b&自动为随手拍摄的照片增加艺术化风格&/b&,模仿陈列在阿姆斯特丹、巴黎和纽约的著名画廊里的绘画杰作及艺术摄影作品。&br&&/p&&br&&p&这一功能由微软亚洲研究院、Skype团队和Pix团队共同开发,是iOS版Microsoft Pix的重要新功能之一,这款应用通过微软研究人员开发的智能算法套件,能够消除拍摄中的不确定因素,每一次快门都能拍出精美的照片。&br&&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-afabdebaa38d_b.jpg& data-rawwidth=&640& data-rawheight=&336& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-afabdebaa38d_r.jpg&&&/figure&&p&“这些新功能都非常好玩,”微软研究院计算摄影组首席项目经理Josh Weisberg表示,“过去,我们的很多工作都集中在如何运用人工智能和深度学习来更好地捕捉精彩瞬间和提升图像质量,但这些新功能则是为了带来更多乐趣——让照片更酷、更有艺术感。”&/p&&br&&p&新功能之一“&strong&Pix风格&/strong&”能够将照片转换成类似知名艺术作品的风格,或者为照片添加一些艺术效果,例如让照片看上去像是着火了一样。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-5e562a205f67dfbcd76e039f22d03c07_b.jpg& data-rawwidth=&640& data-rawheight=&336& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/v2-5e562a205f67dfbcd76e039f22d03c07_r.jpg&&&/figure&&p&与仅能均匀改变相片颜色的滤镜不同,“Pix风格”功能将照片的纹理、图案和色调转化成所选定的风格,使之成为一件独特的创作作品。今天发布的“Pix风格”功能共包含11种独特的艺术风格,未来几周内还将增加更多风格。&/p&&br&&p&第二个新功能是“&strong&Pix&/strong&&strong&绘画&/strong&”,可以制造出以所选艺术风格一笔一笔绘制作品的延时拍摄效果——让用户亲眼见证他们的杰作是如何诞生的。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-a931e37f807c454c73f74_b.jpg& data-rawwidth=&640& data-rawheight=&480& data-thumbnail=&https://pic3.zhimg.com/v2-a931e37f807c454c73f74_b.jpg& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/v2-a931e37f807c454c73f74_r.gif&&&/figure&&p&在新功能的开发过程中,Pix团队使用了&strong&深层神经网络&/strong&,它可以用来训练大规模数据集——在这个项目中则是大量的画作——从而学习给定的艺术风格的精髓。“Pix风格”功能对照片进行风格转化以及“Pix绘画”功能对照片进行动画重绘便是大规模数据训练的结果。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-482ac81a527a1d6a3d9de4b4a9208261_b.jpg& data-rawwidth=&640& data-rawheight=&464& data-thumbnail=&https://pic1.zhimg.com/v2-482ac81a527a1d6a3d9de4b4a9208261_b.jpg& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-482ac81a527a1d6a3d9de4b4a9208261_r.gif&&&/figure&&p&“Pix风格”功能可以直接在你的设备上运行,无需在云端进行计算。将人工智能从云端扩展到处于网络“边缘”的设备上,这正是微软所推动的变革之一。这样可以让用户迅速、轻松地将照片变成艺术品而无需使用数据流量,既降低了流量费用,也节省了等待时间。&/p&&br&&p&iOS用户现在可以通过App Store下载使用这款应用,或者访问网站&a href=&https://link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/product/microsoftpix/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Microsoft Pix App - a Smart Camera and Photo App from Microsoft&/a&,了解背后的秘密。&/p&&br&&p&三篇关于艺术风格化的论文 [1]、[2]、[3]由来自微软研究院的研究员:袁路、廖菁、华刚、Sing Bing Kang和中国科技大学的实习生陈冬冬以及上海交通大学的实习生姚远共同发表。&/p&&br&&br&&h2&&strong&参考文献&/strong&&/h2&&p&[1] Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, and Gang Hua.
“StyleBank: An Explicit Representation for Neural Image Style Transfer”, CVPR 2017&/p&&br&&p&[2] Dongdong Chen, Jing Liao, Lu Yuan, Nenghai Yu, and Gang Hua.
“Coherent Online Video Style Transfer”, arXiv: &/p&&br&&p&[3] Jing Liao, Yuan Yao, Lu Yuan, Gang Hua, and Sing Bing Kang. “Visual Attribute Transfer through Deep Image Analogy”, SIGGRAPH 2017 &/p&&br&&p&[4] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.
“A Neural Algorithm of Artistic Style”, CVPR 2016&/p&&br&&p&[5] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution”, ECCV 2016&/p&&br&&p&[6] Chuan Li, and Michael Wand.
“Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis”, CVPR 2016&/p&&br&&p&[7] Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. “Texture Networks: Feed-forward Synthesis of Textures and Stylized Images” arXiv: &/p&&br&&p&[8] Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, Yichen Wei. “Deep Feature Flow for Video Recognition”, CVPR 2017&/p&&br&&br&&figure&&img src=&https://pic3.zhimg.com/v2-18a55df3ca2ba198d9e211_b.jpg& data-rawwidth=&685& data-rawheight=&13& class=&origin_image zh-lightbox-thumb& width=&685& data-original=&https://pic3.zhimg.com/v2-18a55df3ca2ba198d9e211_r.jpg&&&/figure&&p&感谢大家的阅读。&/p&&p&本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。&/p&&p&微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。&/p&&p&也欢迎大家关注我们的&a href=&https://link.zhihu.com/?target=http%3A//t.sina.com.cn/msra& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微博&/a&和微信账号,了解更多我们研究。&/p&
如今,风格迁移(style transfer)迅速成为人工智能(AI)研究领域的热门话题之一。一些艺术画风格的图片处理工具,如:Prisma、Icon8、DeepArt、Ostagram等风靡全球,它们使用人工智能算法将普通的生活照片变身为大师级艺术风格照。实际上,风格迁移是一种…
&figure&&img src=&https://pic3.zhimg.com/v2-d41dc568bcb492ccbb7786_b.jpg& data-rawwidth=&720& data-rawheight=&368& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/v2-d41dc568bcb492ccbb7786_r.jpg&&&/figure&&blockquote&自2017年以来,”短视频”成为社媒营销最火爆的三个字。短视频如此受营销圈的青睐,根本原因是在注意力碎片化时代,它能够赢得用户的眼球并且吸引他们持久关注。&/blockquote&&p&腾讯、阿里、微博等行业巨头早在前几年就已开始布局短视频行业;央视、凤凰网等一批代表性老牌媒体也纷纷布局短视频;陈翔六点半、Papi酱的成功融资;专注短视频业务发展的快手、西瓜视频冲进短视频品牌排行榜前十……&/p&&p&如果说之前有很多业界人士总在观望短视频到底是短暂的泡沫亦或是真的迎来大爆炸,步入2017年应该不会有人不承认今年是“短视频的元年”。市场表明短视频行业已进入集中爆发期。&/p&&p&据1991IT数据显示,截至日,短视频行业存量的增速呈急速加剧的状态:存量已超过了2.5亿、整体日活也超过了5000万。&/p&&p&&br&&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-2a27306efe1e9b9db169d7b73a3b3e29_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&800& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic3.zhimg.com/v2-2a27306efe1e9b9db169d7b73a3b3e29_r.jpg&&&/figure&&p&&br&&/p&&p&那么。如何深度挖掘短视频的营销潜力和创新营销玩法,抓住它的红利期,是目前企业和营销机构需要努力探索的。在这方面,微播易是个中高手。&/p&&p&&br&&/p&&p&&b&短视频的玩法和逻辑&/b&&/p&&p&&br&&/p&&p&今天,&b&短视频已经完全超越图文社交时期的微博、微信,成为了多维场景中锁定用户注意力的最好表现形式。&/b&为什么是短视频?原因大概有以下几点:&/p&&p&1. 声画结合,内容丰富,表现力强,深受用户喜欢;&/p&&p&2. 贴合用户碎片化时间的阅读习惯,更轻,更随意;&/p&&p&3. 微博微信及各大咨询媒体对于短视频的推广,加快用户注意力迁移;&/p&&p&4. 短视频本身易于制作,易于传播;&/p&&p&5. 自媒体从图文向视频迁移,带来了优质内容基础。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-a8b43083e4cbd184a46f6ca98a1beaf7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&548& data-rawheight=&395& class=&origin_image zh-lightbox-thumb& width=&548& data-original=&https://pic3.zhimg.com/v2-a8b43083e4cbd184a46f6ca98a1beaf7_r.jpg&&&/figure&&p&不同短视频平台有着不同的玩法和逻辑,同样是北上广深的人群,在快手上面追求的是今天有什么好玩的东西可以让我放松,但是在美拍上面追求的却是你能让我变得更美吗?你能让我变得更美,我就看;你不能让我变得更美,对不起,我不看。&/p&&p&如果这种差异性已经被定格,我们面对它怎样做传播和策划?很多CEO会张嘴就来一句,我们调性要高,但请问你是高大上的人吗?你自己的团队为这个品牌塑造了什么样的调性?你的用户会认可吗?你应该针对用户的需求和语言方式选择不同的平台。&/p&&p&比如说,我们真的高大上,调性很好,那就去找美拍;如果我们想做比较轻松的,让用户图个开心,那就去快手上面;如果说,我们需要明星背书,那一直播当仁不让。&/p&&p&这就是对应不同人群以及所在的场景给出的不同语言方式,我们怎样抓住这些东西?目前会有六种非常典型的玩法,这六种玩法是当下在社交视频中出现的最多的六种玩法:&/p&&p&1. 短视频原创—自带流量的私人订制;&/p&&p&2. 冠名植入搭载流量的顺风车;&/p&&p&3. 短视频分发。集结一切精准流量;&/p&&p&4. 活动直播。活动线上传播新标配;&/p&&p&5. 视频电商。全新电商导流渠道;&/p&&p&6. 超级广告王。粉丝经济和网剧的再融合。&/p&&p&这几种玩法背后有一些典型的逻辑。&/p&&p&&b&第一种逻辑:大V定制,全平台分发。&/b&举个例子,有人看过办公室小野的视频吗?它的合作品牌是荣耀V9,这一段美食视频10天时间内,全网播放量突破5000万+,累计播放量破亿。&/p&&p&为何如此?因为它深刻理解荣誉V9品牌和理念,制作的短视频与荣耀V9品牌调性和目标人群高度相符。荣耀V9以小野得力“美食助手”的身份在视频中植入,化身为砧板、拍蒜器等美食工具,在制作美食的过程中,完美地将荣耀V9产品亮点与美食制作相结合,从而引发受众关注和讨论。&/p&&p&在这个过程中,年轻人的语言方式、叙事风格全表达出来了。&/p&&p&在此,可以自制一个全平台分发表。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-9ee6f7b307dee0e4c5388b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&307& data-rawheight=&438& class=&content_image& width=&307&&&/figure&&p&&b&第二种逻辑,BGC发起活动,PUGC响应创造,UGC全民参与。&/b&自媒体深知自己的目标人群是谁,语言方式是什么,但有些时候边界在哪里,企业自己是很清楚的,很多的企业是通过无数的血和泪的经历,才知道我应该怎么做,不应该怎么做。&/p&&p&在这种情况下,可以由企业发起活动,pugc积极响应,扩大影响,最后让普通用户也参与其中,这种方式也可以有效规避很多麻烦。&/p&&p&&b&第三种逻辑,多话题+多场景的集群式短视频创作。&/b&2015年年底、2016年年初,有一个南方的公司,请了大概10多个网红,给了一个模板,10多个网红和无数的粉丝在里面折腾,最后差点成为比社会摇、冰桶挑战还要猛的一个事件,只是因为预算到了,没有更多的网红参与进来了,当时如果预算多一点点,都足够轰动世界了。&/p&&p&因此如果让更多的大V发动自己的创造力是不是可行?这给了我们另外一个启发,就是如果我有钱,我可不可以发动很多自媒体,让他们按照自己的想法和理解帮助我们创造我想要的东西。这是需要钱的打法,但是这种打法特别适合需要铺天盖地抢占整个时间段和海量用户的要求。&/p&&p&&br&&/p&&p&&b&短视频独特的营销价值&/b&&/p&&p&&br&&/p&&p&&b&1、聚焦圈层,深度沟通。&/b&每一个视频自媒体KOL的背后,都聚合一个能量磁场。拥有着共同标签的人,会因为兴趣、爱好、关注而集合在一起。找到了自带粉丝和流量的他们,也就找到了与目标用户沟通的渠道,能够快速提升品牌认知和信任。&/p&&p&&b&2、融合场景,升华情感。&/b&短视频营销发生在特定场景里,真人出境,真切表达,真实情感。不再是单纯植入,而是围绕产品/品牌及自媒体原有的风格调性去生产原创内容,原生传递,能更完整的展示品牌/产品,引发用户的共鸣和讨论。&/p&&p&&b&3、声画结合,创意众包。&/b&短视频内容容易制造容易分享,以及制作成本较低、制作周期较短,改变了传统视频营销难以大规模使用和扩散痛点的难题。优质PUGC内容创造者的出现,更是赋予了品牌/产品千人千面的解读机会,让品牌能在短时间聚焦声量,形成话题。&/p&&p&&b&4、肥尾效应,易于扩散。&/b&年的时候,用户每天看短视频的量大概是一人一天看13段。但是到了现在,一人一天要看30段以上,快手甚至在百段以上,一天平均60分钟在看。因此所谓的肥尾是用户大量的时间会停留在那里,对于企业的投放来讲,这就会变得很有价值。&/p&&p&如果我能够按照用户的语言方式做对应的投放,就能积聚大量的用户。这里面的关键问题是:我们对应了什么样的人?他们是用什么语言方式表达了他们的诉求?最后,我的产品是不是满足了这个诉求。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-cdf8672bf5fbea_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&800& data-rawheight=&409& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic4.zhimg.com/v2-cdf8672bf5fbea_r.jpg&&&/figure&&p&&br&&/p&&p&&b&案例分析如何实现AI驱动的短视频众包创意&/b&&/p&&p&为什么说在短视频时代,创意众包尤为重要?&/p&&p&为何得出这样的结论?有4个重要原因。&/p&&p&首先,短视频年轻用户居多,90后占据7成以上。他们自我判断力强,需求也更难以捉摸,套路满满的传统营销对他们的吸引力有限。  &/p&&p&其次,短视频平台的用户注意力更加分散,活跃在不同视频平台,不同KOL身后。只有借助多个PUGC发声,众包创意,才能击穿圈层,有效触达目标用户。&/p&&p&第三,用户对于短视频营销的要求更高,也更愿意为优质的短视频案例打call。数据显示,86%的年轻用户易被优质的短视频广告吸引,且有83%的用户愿意为这些内容转评赞。但只有真正能够打动了用户的视频,才会收获掌声,众包创意,提升了传播成功的概率!&/p&&p&最后,则是当下的营销环境已经发生改变。消费者兴趣的多元性和信息获取的场景化,决定了传统视频的传播路径——依靠1个tvc打通关的时代已经结束。&/p&&p&在短视频营销环境下,围绕1个核心内容,绑定用户兴趣的多个节点,并邀请多个KOL进行众包式创意解读、制作和传播,成为社交视频时代下的全新传播路径。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-616d7cd819cddd073619cc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1080& data-rawheight=&810& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic1.zhimg.com/v2-616d7cd819cddd073619cc_r.jpg&&&/figure&&p&那么,通过微播易的案例来看下短视频创意众包的营销力量&/p&&p&徐扬指出,现在的自媒体已经有上百万个,挑选一个合适的KOL服务自己的品牌,靠肉眼判断和人工选择已经解决不了这个问题了。微播易现在依托自己的人工智能投放系统,通过智能算法可以帮助品牌主智选出最精准的KOL,还可以为你的品牌建立一个单独的资源库,提供更加个性化的投放服务。&/p&&p&利用人工智能投放系统,微播易已经帮助众多广告主执行了多个超预期的案例。&/p&&p&例如,微播易近期刚刚和腾讯合作完成的英雄联盟创意众包案例。执行这个案例的12个顶级短视频PUGC就是通过微播易的智能投放系统智选出来的。执行中,围绕“游戏全面改版”为核心内容,12个KOL进行创意众包,最终呈现出了情景剧、搞笑段子、脱口秀、诗词赛事等众多内容形式。&/p&&p&更为重要的是,12个不同的短视频分别针对流失用户、活跃用户、潜在用户三类人群,有的放矢地在内容上进行了针对性的创意和传播,迄今这些视频全网传播已破4亿,在美拍、抖音、秒拍、微博等多个平台形成了刷屏级的传播效应。&/p&&p&&br&&/p&&p&&b&短视频三大趋势&/b&&/p&&p&为什么说在短视频时代,创意众包尤为重要?&/p&&p&最后讲一下短视频的三个趋势,这三个趋势对于短视频而言是非常不错的。&/p&&ul&&li&&b&第一,&/b& &b&垂直化。&/b&你会发现很多的自媒体,尤其是短视频,垂直细分的内容让广告主在投放中更聚焦,更有针对性。&/li&&li&&b&第二,&/b& &b&数据化。&/b&没数据怎么证明对用户有价值和帮助?大数据将实现精准、优质的自媒体与目标受众的匹配。&/li&&li&&b&第三,平台化。&/b&一平台交易,多平台分发,去人工化,高校传播配合判假技术将有效保证传播质量。&/li&&/ul&
自2017年以来,”短视频”成为社媒营销最火爆的三个字。短视频如此受营销圈的青睐,根本原因是在注意力碎片化时代,它能够赢得用户的眼球并且吸引他们持久关注。腾讯、阿里、微博等行业巨头早在前几年就已开始布局短视频行业;央视、凤凰网等一批代表性老牌…
&figure&&img src=&https://pic1.zhimg.com/v2-eb482cf941c5ab6ea0d27_b.jpg& data-rawwidth=&738& data-rawheight=&415& class=&origin_image zh-lightbox-thumb& width=&738& data-original=&https://pic1.zhimg.com/v2-eb482cf941c5ab6ea0d27_r.jpg&&&/figure&&blockquote&本文已获得“AI产品经理大本营授权”,如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?@胡含、@我偏笑、@艳龙 等朋友就分享了不少干货心得;最近几天,在@飞艳 同学的协助整理下,Hanniman又补充了一些信息,最终形成这篇文章,以飨大家。&/blockquote&&p&本文,具体介绍了下面5大方面的行业实战评价指标:&/p&&p&&b&一、语音识别&/b&&/p&&p&&b&二、自然语言处理&/b&&/p&&p&&b&三、语音合成&/b&&/p&&p&&b&四、对话系统&/b&&/p&&p&&b&五、整体用户数据指标&/b&&/p&&p&1&/p&&p&&b&语音识别ASR&/b&&/p&&p&&b&语音识别(Automatic Speech Recognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。&/b&&/p&&p&&b&1、&/b&识别率&/p&&p&看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线/离线识别的区别。&/p&&p&实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”&/p&&p&定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。&/p&&p&公式为:&/p&&p&&br&&/p&&figure&&img src=&http://pic2.zhimg.com/v2-c703ecf9d7cbb6abb37ec95_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&486& data-rawheight=&58& class=&origin_image zh-lightbox-thumb& width=&486& data-original=&http://pic2.zhimg.com/v2-c703ecf9d7cbb6abb37ec95_r.jpg&&&/figure&&p&&br&&/p&&ul&&li&Substitution——替换&/li&&li&Deletion——删除&/li&&li&Insertion——插入&/li&&li&N——单词数目&/li&&/ul&&p&3点说明&/p&&p&1)WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。&/p&&p&2)因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。&/p&&p&3)站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“&b&句子识别错误的个数/总的句子个数&/b&”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。&/p&&p&2、&b&语音唤醒相关的指标&/b&&/p&&p&先需要介绍下语音唤醒(Voice Trigger,VT)的相关信息。&/p&&p&A)&b&语音唤醒的需求背景&/b&:近场识别时,比如使用语音输入法时,用户可以按住手机上siri的语音按钮,直接说话(结束之后松开);近场情况下信噪比(Signal to Noise Ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。&/p&&p&但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。&/p&&p&B)&b&语音唤醒的含义&/b&:简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒(激活)词,那后续的语音就应该被识别;否则,不进行识别。&/p&&p&C)&b&语音唤醒的相关指标&/b&&/p&&p&a)&b&唤醒率&/b&。叫AI的时候,ta成功被唤醒的比率。&/p&&p&b)&b&误唤醒率&/b&。没叫AI的时候,ta自己跳出来讲话的比率。如果误唤醒比较多,特别比如半夜时,智能音箱突然开始唱歌或讲故事,会特别吓人的……&/p&&p&c)&b&唤醒词的音节长度&/b&。一般技术上要求,最少3个音节,比如“OK Google”和“Alexa”有四个音节,“Hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”——如果音节太短,一般误唤醒率会比较高。&/p&&p&d)&b&唤醒响应时间&/b&。之前看过傅盛的文章,说世界上所有的音箱,除了Echo和他们做的小雅智能音箱能达到1.5秒,其他的都在3秒以上。&/p&&p&e)&b&功耗(要低)&/b&。看过报道,说iPhone 4s出现Siri,但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒;这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。&/p&&p&以上a、b、d相对更重要。&/p&&p&D)其他&/p&&p&涉及AEC(语音自适应回声消除,Automatic Echo Cancellation)的,还要考察&b&WER相对改善情况&/b&。&/p&&p&&br&&/p&&figure&&img src=&http://pic3.zhimg.com/v2-fac6bc5bb8ba8c0b238ead6f69c5e336_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&640& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&http://pic3.zhimg.com/v2-fac6bc5bb8ba8c0b238ead6f69c5e336_r.jpg&&&/figure&&p&&br&&/p&&p&2&/p&&p&&b&自然语言处理NLP&/b&&/p&&p&自然语言处理(Natural Language Processing),一般简称NLP,通俗理解就是“让计算机能够理解和生成人类语言”。&/p&&p&1、准确率、召回率&/p&&p&附上之前文章《AI产品经理需要了解的数据标注工作入门》中,分享过的一段解释:&/p&&p&准确率:识别为正确的样本数/识别出来的样本数&/p&&p&召回率:识别为正确的样本数/所有样本中正确的数&/p&&p&举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则&/p&&ul&&li&精确率=18/(18+2)=0.9&/li&&li&召回率=18/30=0.6&/li&&/ul&&p&再补充一个图来解释:&/p&&p&&br&&/p&&figure&&img src=&http://pic3.zhimg.com/v2-f1be39d177de96710af6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&400& data-rawheight=&727& class=&content_image& width=&400&&&/figure&&p&&br&&/p&&p&2、F1值(精准率和召回率的调和平均数)&/p&&p&模型调优后追求F1值提升,准确率召回率单独下降在一个小区间内,整体F1值的增量也是分区间看(F1值在60%内,与60%以上肯定是不一样的,90%以上可能只追求1%的提升)。&/p&&ul&&li&P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)&/li&&/ul&&p&3&/p&&p&&b&语音合成TTS&/b&&/p&&p&&b&语音合成(Text-To-Speech),一般简称TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。&/b&大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。&/p&&p&&b&主观测试(自然度),以MOS为主:&/b&&/p&&p&1、MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。&/p&&p&2、ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。&/p&&p&&b&客观测试:&/b&&/p&&p&1、对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。&/p&&p&2、对工程上的测试:实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。&/p&&p&4&/p&&p&&b&对话系统&/b&&/p&&p&对话系统(Dialogue System),简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验。&/p&&p&1、用户任务达成率(表征产品功能是否有用以及功能覆盖度)&/p&&p&1)比如智能客服,如果这个Session最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。&/p&&p&2)分专项或分意图的统计就更多了,不展开了。&/p&&p&2、对话交互效率,比如&b&用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率&/b&等(可能和打断,One-shot等功能相关);具体定义,各个产品自己决定。&/p&&p&3、根据对话系统的类型分类,有些区别。&/p&&p&1)闲聊型&/p&&p&A)CPS(Conversations Per Session,平均单次对话轮数)。这算是微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标;&/p&&p&B)相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;&/p&&p&C)话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。&/p&&p&2)任务型&/p&&p&A)留存率。虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如:之前百度高考,教考生填报志愿,就是这么弄的;&/p&&p&B)完成度(即,前文提过的“用户任务达成率”)。由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口;&/p&&p&C)相关的,还有(每个任务)平均slot填入轮数或填充完整度。即,完成一个任务,平均需要多少轮,平均

我要回帖

更多关于 抽象画看不懂 的文章

 

随机推荐