要使是什么叫做方程的解1十logb(2lgα-ⅹ)logⅹ(b)二2/logb(ⅹ)至少有一解,数α和b应当满足?

标题:时序图转换器的多行为顺序推荐

摘要:基于顺序的物品交互对用户随时间变化的偏好(dynamic interest)进行建模,已在许多在线应用中受到越来越多的关注。现有的大多数顺序推荐系统的交互模式编码功能都集中在单一类型的用户-物品交互上。在许多现实生活中的在线平台中,用户-物品的交互行为通常是多类型的(例如,点击、添加到收藏、购买),并具有复杂的交叉类型的相互依赖行为。从用户和物品的基于多类型交互数据的信息表示中学习,对于准确描述随时间变化的用户偏好具有重要意义。本文提出了一个新的时间图转换器(TGT)推荐框架,通过探索不同行为类型之间的演变相关性,来联合捕捉动态的短期和长期动态用户-物品交互模式。

本质探查异构多行为<--单一类型; 动态偏好; 长期、短期的pattern。

背景:①传统的CF(collaborative filtering )方法,仅关注静态User-Item交互,忽略了用户随时间变化的动态偏好;② 顺序推荐模型比如RNN/CNN(DIEN/SASRec)的核心思想是基于过去观察到的行为,通过捕获用户-物品交互的时间依赖性来理解用户偏好的演变;③ 受图神经网络有效性的启发,几种基于gnn的方法利用用户-项目图结构来指导嵌入学习,并结合用户交互的时间上下文;但是,以上方法有一个共同的缺陷:目前大多数框架都是为单一行为类型设计的。

实例:举例:在网络零售平台,如果用户喜欢,可以查看产品或将其标记为最爱,如果产品满足用户的需求,则可以进行最终购买(如图1所示)。因此,用户-物品交互往往具有时间依赖性和行为多样性。为了向用户推荐未来的购买,不仅要了解他/她以前购买过什么,而且要了解这个用户以前看过什么产品,或者把它们标记为他/她最喜欢的商品

时序多行为模式融合:不同于平稳的相互依赖关系,对动态的多行为语义和潜在的跨类型行为依赖做出响应是具有挑战性的

细节解读:① 捕捉用户的短期多类型交互模式:行为感知的转换器网络,将行为异构信号(多行为特征和交互语义的变化)注入到物品转换的序列建模中。② 长期的多行为依赖:时间图神经网络,从用户在任意持续时间的物品上的多样化活动推断出潜在的用户表示。通过多通道增强消息传递范式不仅允许不同类型的行为保持其特定的时间感知语义,而且允许特征行为类型的具有长期动态的表示;③ 时间感知的用户-物品交互图上递归地细化全局级别的表示,以捕获不同用户之间的动态交叉序列相关性。

本文贡献:① 从短期和长期两方面探讨了用户的多行为特征,从而解决了多行为顺序推荐问题。研究表明,建立动态跨类型行为相互依赖模型对提高推荐质量至关重要。② 提出一个通用的顺序推荐模型TGT,以随着时间的推移维护不同类型的用户项目交互的专用表示。在TGT中,我们沿着时间维度调整图神经网络以捕获多行为动态交互模式

用户Ui的多行为交互序列Si

标题: 基于采样的超长序列建模算法 SDIM

应用:美团陈达遥团队 CTR预估 用户长序列

摘要用户历史行为序列是刻画用户兴趣非常重要的一环,用户行为建模是近年来推荐系统领域的一个热点话题。工业级的CTR模型大都采用 target attention 来建模用户行为序列,target attention 根据与候选 item 的相似度来对行为序列中的 item 进行加权以得到用户兴趣表征,耗时与存储负载会随着序列长度线性增长,因此许多工业级的CTR模型都只截取了用户最近的50个行为来建模用户短期兴趣。近年来,有部分工作专门研究如何将长期用户兴趣建模模块部署到工业级的推荐系统中,代表性工作包括比如阿里妈妈的 MIMN、SIM,阿里首页推荐的 ETA,上海交大的 UBR4CTR 等等。这些工作大多引入了一个“检索模块”,首先在用户长序列中检索出 top-k 相关的行为,而后将这 top-k 子序列输入到模型端到端建模。本文指出这些基于检索的算法有以下缺陷:(1) 对原始序列进行截断并只建模截断后的子序列是一个次优解,有些情况下无法准确地预估用户的兴趣。例如当一个用户拥有非常多的历史行为时,对于许多 target item,能筛选出至少 k 个与之相关的行为,导致预估的结果不准确(比如用户历史点了50次麦当劳和100次肯德基,此时用户应该更偏好于肯德基,但截断 top-50 后对模型来说二者是平等的);(2) 检索算法的效果和性能很难权衡。简单的检索算法(比如SIM)对性能友好,但可能会损失更多效果;而复杂的检索算法(如UBR4CTR)虽然可能能提升效果,但系统延时也会大大增加。

本文作者提出了一个无需检索的基于采样的超长序列算法 SDIM,作者通过采样多个哈希函数,将 target item 和用户序列的表征映射为哈希指纹,而后将用户序列中与 target item 相碰撞的 item 表征取平均以得到用户兴趣表征(核心思想就是用哈希碰撞概率来近似 attention score)。实验结果表明该方法能取得和对原始长序列直接做 target attention 相媲美的结果,同时有数十倍的性能提升。

标题: 用于全空间多任务学习的多尺度用户行为网络

应用:阿里/上交 预估 多尺度用户行为

摘要:本文主要是针对用户的行为序列进行建模,并且现有方法通常是通过双塔架构的多任务学习优化多个排名目标(点击,转化),对“观察→点击”和“点击→转化”行为路径之间的依赖关系进行编码。对于每个商品Item,用户行为的两个关键特征的影响:① 上下文依赖,用户对任何商品的行为不仅由商品本身决定,而且还受到用户在同一序列中对其他之前的商品的行为(例如,点击、购买)的影响;② 多时间尺度,用户可能会频繁点击但会定期购买(电商,JD/淘宝的特性,先加购后定期一波流下单); (这和SIGIR'22的meta-path异曲同工之妙:一个商品的Embs表示形式是由三个方面决定的:1) 商品的基本特征(deepwalk),2) 商品前面的商品,3)用户点击该商品背后的潜在兴趣(path实例))

本文设计了一个新的多尺度用户行为网络,称为整个空间的分层循环排名(HEROES),它结合上下文信息以多尺度方式估计用户的多种行为。该框架中引入了一个分层框架,其中下层对用户的参与行为进行建模,而上层对用户的满意度行为进行估计。所提出的架构可以自动为每一层学习合适的时间尺度,以捕捉动态的行为模式。

标题: 面向多行为推荐的粗到精知识增强多兴趣学习框架

应用:华为/清华 预估 多行为多兴趣

摘要:多种类型的行为(如点击、加入购物车、购买等),利于了解用户多方面的偏好,因此,有效地建模复杂的行为依赖关系对多行为预测至关重要。但是,不同的行为可能反映用户偏好的不同方面,这意味着一些无关的交互可能会对预期的目标行为起到干扰作用。本文提出了一个从粗到精(Coarse-to-Fine)的知识增强的多兴趣学习(CKML)框架,CKML引入了两个高级模块,即粗粒度兴趣提取(CIE)和细粒度行为相关(FBC):① CIE使用知识感知信息来提取每个兴趣的初始表示;② FBC合并了一个动态路由方案,进一步在兴趣之间分配每个行为。

标题: 推荐中的多视角多行为对比学习 DASFAA'22

应用:中科院计算所+微信+北航 多行为 对比学习CL 图视图+序列视图

MBR)旨在联合考虑多个行为来提高目标行为的性能。我们认为MBR模型应该:(1)对用户不同行为之间的粗粒度共性进行建模;(2)在多行为建模中同时考虑个体序列视图和全局图视图;(3)捕捉用户多个行为之间的细粒度差异。在本研究中,我们提出了一个新的多行为多视角对比学习推荐(MMCLR)框架,包括三个新的学习推荐任务,分别解决上述挑战

个性化推荐旨在根据用户的喜好为用户提供合适的物品。个性化推荐的核心问题是如何从用户行为中准确捕捉用户偏好。在现实世界的场景中,用户通常有不同类型的行为来与推荐系统进行交互。例如,用户可以对电子商务系统(例如,亚马逊、淘宝)中的物品进行点击、加购物车、购买等行为,在社交推荐系统中(例如 推特,微博)可以进行点赞,分享,评论等行为。一些传统的推荐模型经常依赖单一的行为进行推荐。但是在实际系统中这样可能存在严重的数据稀疏性和冷启动问题,尤其当目标行为是高成本低频的行为。在这种情况下,其他行为(例如,点击,加购物车)可以为理解用户偏好提供额外的信息,从不同方面反映用户多样化和多粒度的偏好。

多行为推荐(MBR)综合考虑了不同类型的行为,因而能更好的学习到用户的偏好。多行为推荐在其它工作中得到了广泛的探索和验证。但是MBR仍然存在三个挑战:

  • 如何对用户行为之间的粗粒度共性进行建模?用户的所有类型的行为都从某些方面反映了该用户的偏好,因此这些行为天然具有一些共性。考虑不同行为之间的共性可以帮助学习更好的用户表示来对抗数据稀疏问题。这一点在现有的 MBR 模型中经常被忽略。然而,如何通过用户不同类型的行为提取其中的共性信息是一个有挑战性的工作。
  • 如何联合考虑用户个体和全局的视图?传统的 MBR 模型通常只采用一种视图(图视图或序列视图)。序列视图往往更关注于用户个体层面的兴趣演化。相比之下,图视图通常专注于从整个系统中的协同信息来探索用户的兴趣。从不同层次考虑用户兴趣并应用相应的建模方法(基于序列和基于图),能够从不同的方面捕获用户的兴趣。他们相互补充,有助于提升MBR的推荐效果。
  • 如何学习用户多行为之间的细粒度差距?一个用户不同类型的行为之间除了粗粒度的共性之外,还存在细粒度的差异。在目标行为和其它行为之间通常存在着优先级(例如购买的优先级通常高于点击)。在现实世界的电子商务数据集中,用户的平均点击数通常是平均购买次数的 7 倍以上,因而存在大量点击但未购买的商品。将点击未购买的物品视为更加难的负样本,可以让模型学习到阻止用户购买的原因。现有的作品很少考虑多种行为之间的差异,我们想要将这种差异编码到用户的多行为表示中。

近几年,对比学习(CL)在推荐系统中展现了它的力量,它极大地缓解了数据稀疏和流行度偏差问题。我们发现对比学习天然适用于对多行为和多视图用户表示之间的粗粒度共性和细粒度差异进行建模。为了解决上述挑战,我们提出了一种新颖的多行为多视图对比学习推荐(MMCLR)框架。具体来说,MMCLR 包含一个序列编码模块和一个图编码模块,分别用于学习用户多行为下的用户表示。我们针对现有挑战设计了三个对比学习任务,包括多行为对比学习、多视图对比学习和行为区别对比学习。他们建模了用户多行为和多视图之间的复杂关系,从而能够学习到更好的用户表示。

  • 多行为对比学习:我们在每一个视图下的不同行为之间设置对比学习任务。它假设从同一用户的不同行为中学习到的用户表示与其他用户的表示相比应该更接近,其目的是提取不同类型行为之间的共性。
  • 多视图对比学习:我们在两个视图中的用户表示之间进一步的设置对比学习任务。它帮助建模了基于序列的用户的局部信息,和基于图的用户的全局信息之间的共性信息,并对其他们的表示。从而可以提升图编码器和序列编码器的效果。
  • 多行为区分对比学习:与多行为对比学习不同,多行为区分对比学习致力于建模不同行为之间的细粒度的差异,而不是粗粒度的共性。它专门用于捕获用户针对于目标行为的细粒度偏好。

通过这三种对比学习任务,MBR可以更好的理解用户不同行为之间的共性和差异,此外可以更好的建模不同视图之间的关系,从而提高对目标行为的推荐效果。

如下图所示,我们的模型包含三大块,多视图编码器,多行为融合器,和多视图融合器三部分组成。此外在每一部分中我们分别在内部设置了多行为对比学习,多视图对比学习,行为区分对比学习三个任务,以帮助模型学习到更好的表示。具体的方法如下:

标题: 基于生成任务的会话搜索用户行为序列建模 CIKM'22

摘要:用户的搜索任务变得越来越复杂,需要进行多次查询并与结果进行交互。最近的研究表明,对用户在会话中的历史行为建模可以帮助理解当前的搜索意图。现有的上下文感知排序模型主要编码当前会话序列(从第一个行为到当前查询),并使用高级表示计算排序得分。然而,当前会话序列中通常有一些噪声(对推断搜索意图无用的行为),这可能会影响编码表示的质量。为了对当前的用户行为序列进行编码,我们提出了使用译码器和未来序列信息以及补充查询的方法。具体来说,我们设计了三个生成任务来帮助编码器推断实际的搜索意图:(1)预测未来的查询,(2)预测未来被点击的文档,(3)预测补充查询。我们使用编码器-解码器结构化方法,共同学习排序任务与这些生成任务。

①任务1:预测未来的查询。随着会话的进行,用户对他们的实际信息需求变得更加明确。因此,同一个会话中的后续查询可以更准确地反映搜索意图。 --> 同一个会话中,越靠后的clk行为越能反应用户的真实意图?!

②任务2:预测未来点击的文档。除了将来的查询之外,我们还考虑将来的用户单击,因为文档通常包含比基于关键字的查询更详细的信息。--> 通过预测未来的CLK真实意图,预测下一次点击Item

③任务3:预测补充查询。正如前面第三个问题所解释的,其他用户会话中的一些查询可能有助于理解当前的搜索意图。--> 其他Session的一些CLK行为可能有助于理解当前的CLK意图

论文机构: 香港城市大学

标题: 点击率预测模型的过拟合现象研究 CIKM'22

Zheng。文章的实践指导意义巨大,能够抛开许多看起来非常fancy的方法与理论,深入到具体应用表现和结果中分析问题结果,避免算法应用的“拿来主义”,在现在算法应用领域谈概念,扯理论的浮夸风气中带来一丝清风,本着工程师的严谨精神,剖析具体的应用问题,不仅能够加深对业务的理解,也能从业务中对算法技术进行认知迭代,真正做到业务驱动,算法护航的目的

摘要:本文将介绍阿里妈妈展示广告Rank团队对点击率(CTR)预估模型过拟合问题的研究。我们观察到CTR模型的过拟合现象非常特殊:在训练的第一个epoch结束,第二个epoch开始时,预估模型发生过拟合现象,并且在测试集上的效果急剧下降,我们称其为“one epoch现象”。为了解释该现象,我们在工业生产数据集上进行了大量实验。结果显示模型结构、模型的快速收敛(例如强优化器和较大学习率)以及特征ID的稀疏性是导致one epoch现象的关键因素。令人惊讶的是,深度模型往往在训练一个epoch后就可以达到最佳性能,这也解释了为什么许多工业推荐系统只对数据进行一次训练。我们进而提出了one epoch现象的一个可能假设,并佐以相关验证实验。

① one-epoch现象 -- CTR预估模型的过拟合现象非常特殊:模型AUC在第一个epoch内逐步提升,但是从第二个epoch开始,AUC效果突然剧烈下降,我们把这个现象叫做one-epoch现象。one-epoch现象在学术界和工业界都普遍存在。它有两个特点,(1) 恰好出现在第2个epoch开始;(2) 突然剧烈发生,导致模型精度迅速下降。

② one-epoch影响因素:A. 我们发现(有关)Embedding+MLP结构能使模型快速收敛的优化器算法(例如学习率较大的Adam优化器)和 稀疏特征的使用(例如使用item_ID等细粒度特征)与one-epoch现象的产生都密切相关;B. 我们也验证了机器学习算法的一些核心要素,包括模型参数量、激活函数的选择、batch-size的大小、模型权重衰减(正则化项)和dropout等(无关),但实验发现他们和one-epoch现象并没有直接的关联;C. 虽然可以通过改变结论1中的影响因素来缓解one-epoch现象(有损),但我们也发现这些方式都不可避免会带来精度损失。深度CTR模型取得最好的表现仅仅需要训练一个epoch!工业界的深度CTR模型一般都采用流式训练,并且只训练一个epoch,我们的实验结论或许为这种做法提供了合理性依据。

模型相关因素:在模型结构方面,我们发现基于DNN的深度CTR模型会产生one-epoch现象,而基于LR的CTR模型在各种超参数设置下都不会发生one-epoch现象,只表现为精度上升、平稳、再缓慢下降的传统过拟合现象。这说明one-epoch现象与不同的模型结构有着密切关系。

模型优化器与one-epoch现象有紧密关联。在尝试了Adam、RMSprop、SGD等不同优化器后,我们发现Adam和RMSprop在大多数情况下都有更快的收敛速度,也更容易出现one-epoch现象。我们进一步观察到,学习率也与one-epoch现象也有一定关联。在极小的学习率下,one-epoch现象不太明显甚至完全消失,但模型的精度无法保障。简言之,能使模型快速收敛的优化器算法也更容易导致one-epoch现象。

特征相关因素:工业界CTR模型的训练数据通常具有高度稀疏性 [7]。关于特征稀疏性,我们在这里提供一个直观的理解,如果一个特征域拥有的不同ID数越多、每个ID的平均出现次数越少,那么该特征域的稀疏性就越大。例如,下表所示的生产数据集中,item_ID和history_item_IDs是两个稀疏最大的特征域。

通过哈希降低数据稀疏性可以缓解深度CTR模型的one-epoch现象

标题移动端部署推荐系统:快手获数据挖掘顶会CIKM 2022最佳论文

应用: 快手短视频推荐场景 -- 端上重排

摘要:获奖论文《Real-time Short Video Recommendation on Mobile Devices》针对短视频推荐场景,传统服务端部署的推荐系统在决策时机和实时特征利用方面的不足问题,通过在移动客户端部署推荐系统来实时响应用户反馈,提高推荐结果的精准度,从而提升用户体验。论文提出的方案 100% 流量部署到了快手短视频推荐生产环境,影响了日均超过 3.4 亿用户的体验,是端上智能在大规模推荐场景落地的创新实践。

随着移动设备算力和存储资源的快速提升,以及移动端深度学习框架的发展,现在已经可以在移动设备上进行深度学习模型推理甚至训练,因此我们通过在移动设备上部署一个重排系统来解决上述问题(下图)。通过端上重排模型来实现用户反馈信号和客户端独有特征的实时利用,从而得到当前上下文下更准确的预估值。在此基础上,通过自适应确定搜索步数的 beam search 来生成整体效果更好的排序,从而提升用户体验,并带来显著的线上效果提升。

整个系统分成 3 个部分

① 服务端的推荐系统。这部分就是传统的推荐系统,通常包括召回、排序、重排等环节,最终输出几十个左右的候选视频。一些服务端能获取到的特征也会被抽取出来,随着候选视频一起发送到客户端

② 模型训练系统。这个模块负责训练拼接训练样本,并训练端上重排模型。训练过程中会定期导出 checkpoint,并转换成 TFLite 格式下发到客户端。

③ 客户端推荐系统。这是整个系统的核心模块,负责客户端的特征收集,以及根据用户行为触发候选视频重排

整体模型结构如图 3 所示,除了直接引入候选视频特征和其他特征(如客户端特征)之外,模型主要通过 target attention 来建模已观看的视频序列和候选视频之间的关系,以及已排序候选序列和候选视频之间的关系。上层通过 MMoE 模块来建模 3 个目标,分别是 has_next(下滑)、effective_view(有效播放)和 like(点赞)。

KDD会议分为研究和应用科学两个方向,本年度共收到2448篇投稿,仅接受449篇,接收率18.3%。包括阿里巴巴、华为、腾讯、百度等多家中国科技企业均有论文被收录,其中阿里巴巴今年共34篇论文入选,是全球入选论文数量最多的企业之一,同时阿里巴巴独立获得了大会应用科学方向唯一的“最佳论文奖”。历年荣摘桂冠的包括来自谷歌、亚马逊、卡内基梅隆大学等海外知名机构的研究团队,国内企业此前从未获得该奖。 Learning》聚焦联邦学习中应用广泛且技术复杂的联邦图学习方向,针对现有框架及算法库对图数据支持有限的情况,提出了包含丰富数据集及创新算法的易用平台,为该领域后续研究奠定坚实基础。

focal loss是最初由何恺明提出的,最初用于图像领域解决数据不平衡造成的模型性能问题。本文试图从交叉熵损失函数出发,分析数据不平衡问题,focal loss与交叉熵损失函数的对比,给出focal loss有效性的解释。

对于所有样本,损失函数为:

对于二分类问题,损失函数可以写为:

其中m为正样本个数,n为负样本个数,N为样本总数,m+n=N。

当样本分布失衡时,在损失函数L的分布也会发生倾斜,如m<<n时,负样本就会在损失函数占据主导地位。由于损失函数的倾斜,模型训练过程中会倾向于样本多的类别,造成模型对少样本类别的性能较差。

基于样本非平衡造成的损失函数倾斜,一个直观的做法就是在损失函数中添加权重因子,提高少数类别在损失函数中的权重,平衡损失函数的分布。如在上述二分类问题中,添加权重参数 \alpha \in [0, 1]1-\alpha

,即权重的大小根据正负样本的分布进行设置。

focal loss也是针对样本不均衡问题,从loss角度提供的另外一种解决方法,具体形式为:

将focal loss表达式(2)统一为一个表达式:

同理可将交叉熵表达式(1)统一为一个表达式:

p_t 反映了与ground truth即类别y的接近程度, p_t 越大说明越接近类别y,即分类越准确。

loss对于分类不准确的样本,损失没有改变,对于分类准确的样本,损失会变小。 整体而言,相当于增加了分类不准确样本在损失函数中的权重。

p_t 也反应了分类的难易程度, p_t 越大,说明分类的置信度越高,代表样本越易分; p_t 越小,分类的置信度越低,代表样本越难分。因此focal loss相当于增加了难分样本在损失函数的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度

不同于 RNN、CNN 等模型,对于 Transformer 模型来说,位置编码的加入是必不可少的,因为纯粹的 Attention 模块是无法捕捉输入顺序的,即无法区分不同位置的 Token。为此我们大体有两个选择:① 想办法将位置信息融入到输入中,这构成了绝对位置编码的一般做法;② 想办法微调一下 Attention 结构,使得它有能力分辨不同位置的 Token,这构成了相对位置编码的一般做法。

很显然,绝对位置编码的一个最朴素方案是不特意去设计什么,而是直接将位置编码当作可训练参数,比如最大长度为 512,编码维度为 768,那么就初始化一个的矩阵作为位置向量,让它随着训练过程更新。现在的 BERT、GPT 等模型所用的就是这种位置编码,事实上它还可以追溯得更早,比如 2017 年 Facebook 的《Convolutional Sequence to

其中分别是位置 k 的编码向量的第个分量。很明显,三角函数式位置编码的特点是有显式的生成规律,因此可以期望于它有一定的外推性。另外一个使用它的理由是:由于以及,这表明位置的向量可以表示成位置和位置的向量组合,这提供了表达相对位置信息的可能性。但很奇怪的是,现在我们很少能看到直接使用这种形式的绝对位置编码的工作,原因不详

原则上来说,RNN 模型不需要位置编码,它在结构上就自带了学习到位置信息的可能性(因为递归就意味着我们可以训练一个“数数”模型),因此,如果在输入后面先接一层 RNN,然后再接 Transformer,那么理论上就不需要加位置编码了。同理,我们也可以用 RNN 模型来学习一种绝对位置编码,比如从一个向量出发,通过递归格式来得到各个位置的编码向量。ICML 2020

刚才我们说到,输入与绝对位置编码的组合方式一般是,那有没有“不一般”的组合方式呢?比如(逐位相乘)?我们平时在搭建模型的时候,对于融合两个向量有多种方式,相加、相乘甚至拼接都是可以考虑的,怎么大家在做绝对位置编码的时候,都默认只考虑相加了?很抱歉,笔者也不知道答案。可能大家默认选择相加是因为向量的相加具有比较鲜明的几何意义,但是对于深度学习模型来说,这种几何意义其实没有什么实际的价值。最近笔者看到的一个实验显示,似乎将“加”换成“乘”,也就是的方式,似乎比能取得更好的结果。具体效果笔者也没有完整对比过,只是提供这么一种可能性。

相对位置并没有完整建模每个输入的位置信息,而是在算 Attention 的时候考虑当前位置与被 Attention 的位置的相对距离,由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着优秀的表现。对于相对位置编码来说,它的灵活性更大,更加体现出了研究人员的“天马行空”。

一般认为,相对位置编码是由绝对位置编码启发而来,考虑一般的带绝对位置编码的 Attention:

其中 softmax 对 j 那一维归一化,这里的向量都是指行向量。我们初步展开:

为了引入相对位置信息,Google 把第一项位置去掉,第二项改为二元位置向量,变成:

所谓相对位置,是将本来依赖于二元坐标 (i,j) 的向量,改为只依赖于相对距离 i-j,并且通常来说会进行截断,以适应不同任意的距离:

这样一来,只需要有限个位置编码,就可以表达出任意长度的相对位置(因为进行了截断),不管是选择可训练式的还是三角函数式的,都可以达到处理任意长度文本的需求。

尽管经典的将 CNN 用于 NLP 的工作《Convolutional Sequence to Sequence Learning》[12] 往里边加入了位置编码,但我们知道一般的 CNN 模型尤其是图像中的 CNN 模型,都是没有另外加位置编码的,那 CNN 模型究竟是怎么捕捉位置信息的呢?

我们知道,为了使得卷积编码过程中的 feature 保持一定的大小,我们通常会对输入 padding 一定的 0,而这篇论文显示该操作导致模型有能力识别位置信息。也就是说,卷积核的各向异性固然重要,但是最根本的是 zero padding 的存在,那么可以想象,实际上提取的是当前位置与 padding 的边界的相对距离。

不过,这个能力依赖于 CNN 的局部性,像 Attention 这种全局的无先验结构并不适用,如果只关心 Transformer 位置编码方案的读者,这就权当是扩展一下视野吧。

摘要: DGI,一种以无监督的方式学习图结构数据中节点表示的一般方法。DGI 依赖于最大限度地扩大图增强表示和目前提取到的图信息之间的互信息。 与大多数以前使用 GCN 进行无监督学习的方法相比,DGI不依赖于随机游走目标,并且很容易适用于直推式学习和归纳式学习。

简介:神经网络推广到图形结构输入的困难之处:大多数图表数据是未标记的。随机游走的限制:随机游走目标以牺牲结构信息为代价过分强调邻近信息,并且性能高度依赖于超参数的选择。目前还不清楚随机游走目标是否真的提供了任何有用的信号。

  本文提出了一种用于无监督图学习的替代目标,这种目标是基于互信息,而不是随机游走。在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)是指变量间相互依赖性的量度。近年来基于互信息的代表性工作是 Mutual Information Neural Estimation (MINE),其中提出了一种 Deep InfoMax (DMI) 方法来学习高维数据的表示。 DMI 训练一个编码模型来最大化高阶全局表示和输入的局部部分的互信息。这鼓励编码器携带出现在所有位置的信息类型(因此是全局相关的),例如类标签的情况。

详细解读:目前主流的无监督图表示学习方法主要依赖于基于随机游走的,然而这一类的方法受到诸多限制。最显著的是,已知的随机游走目标过分强调接近性信息,而牺牲了结构信息,并且方法的效果高度依赖于超参数的选择。本文提出的方法基于互信息估计,依赖于训练一个统计网络作为分类器来区分开组两个随机变量联合分布和边缘分布乘积的样本。本文的方法从Deep InfoMax改进而来,称为Deep Graph Infomax,可以应用在直推式和归纳式的图表示学习任务中。

hi 被称为patch,代表节点的高阶特征

全局信息s和解码器、负样本

标题: 使用移位窗口的分层视觉Transformer

摘要:总的来说,在 Transformer 的热潮席卷 CV 领域之时,Swin Transformer 选对了需要解决的问题,计算复杂度问题对于 Transformer 结构在 CV 上的应用而言十分关键,而解决的方法合理符合直觉,最后的性能也十分理想,使其成为不可忽视SOTA方法,Swin Transformer 的故事到这里就基本讲完了,后续估计又会有一波基于 Swin Transformer 的改进/应用,不过这就是新的故事了。

Why解决什么问题? - 近期 Transformer 在 CV 领域掀起了一股热潮,从图像分类的 ViT, 到目标检测的 DETR,再到图像分割的SETR 以及 3D 人体姿态的 METRO,预计在未来所有 CNN 能干的事情,都会涌现出一大批论文。虽然灌水总是存在的,但客观上的确也一定程度上推进了AI 领域技术和方法的融合与发展。回到正题,虽然这些针对不同任务设计的 Transformer 的确把 CNN 的活儿给干了,但其原生Self-Attention 的计算复杂度问题一直没有得到解决,Self-Attention 需要对输入的所有N个 token 计算 N^2 大小的相互关系矩阵,考虑到视觉信息本来就就是二维(图像)甚至三维(视频),分辨率稍微高一点这计算量就很难低得下来。Swin Transformer 想要解决的就是这个计算复杂度的问题

Swin Transformer 之所以爆火,外部因素是 Transformer 在 CV 领域已掀起一波浪潮,内部因素是它本身的确用了很合理的方式解决了 Transformer 中计算复杂度的问题。Swin Transformer 的核心思想其实在人类社会结构、树的分形、以及快速排序算法等等中都有体现,即分而治之:

分组计算的方式虽然大大降低了 Self-Attention 的复杂度,但与此同时,有两个问题需要解决,其一是分组后 Transformer 的视野局限于 n 个token,看不到全局信息,其二是组与组之间的信息缺乏交互。

标题: 预测点击率-通过对抗过滤建模长期用户行为序列

应用:阿里巴巴Lazada团队 CTR预估 用户点击长序列

摘要:最近,研究人员提出了几种缩短用户长期行为序列并对用户兴趣进行建模的方法(比如SIM/MIMN)。这些方法有效地降低了在线成本,但没有很好地处理长期用户行为中的噪声信息,可能会显著降低点击率预测的性能。为了获得更好的【成本/性能权衡】,本文提出了一种新的对抗过滤模型(ADFM)来建模长期用户行为的方法。首先①利用分层聚合表示压缩原始行为序列;然后②利用对抗过滤机制学习去除无用的行为信息;最后③将选择的用户行为送入兴趣提取模块进行点击率预测。

检索TopK相关Items)有效地降低推理耗时,但没有很好地处理用户长期行为中的噪声问题。本文采用分层聚合(hierarchical aggregation)表示压缩原始行为序列;通过研究长期用户行为序列发现存在两种类型的噪声:重复行为(被热点Item占据很大篇幅却无增量信息)和无用行为(误点或长尾Item)。

标题: 基于长序列数据聚类行为采样的CTR预测

摘要:长序列CTR预估:①很长的历史中存在大量的噪声;②:直接输入较长的行为序列会导致不可行的推理时间和存储成本。为了应对这些挑战,本文提出了用户行为聚类抽样(UBCS)框架。通过两个模块级联,从整个用户历史序列中获得短的子序列:(i)行为抽样是利用一种考虑相关性和时间信息的抽样方法,对与候选Item相关的短序列进行抽样;(ii)项目聚类模块将Items聚成少量的聚类质心,减轻了噪声的影响和提高效率。③ 通过Pre-Train自我监督一致性任务提取用户角色偏好,有效地优化采样模块。

KMean近似计算仅仅是为了Online加速使用

本质探查丰富的用户行为在淘宝、快手上已经被证明对点击率的预测有价值,找到精确有效地建模长时间连续用户行为的方法非常有必要!① 像GNN这样的方法将长序列转化为精心设计的结构以减少序列长度,但也带来了信息的丢失和实践中的困难。② 基于记忆的MIMN/HPMN和基于搜索的SIM/ETA方法在使用较长的序列方面取得了一些突破,但同时会引入很多不相关的行为和噪声,可能会导致不可行的推断时间和空间复杂度。例如,像MIMN这样的基于内存的模型将所有未过滤的用户历史行为编码到固定长度的内存中,这使得很难捕获各种长期兴趣。对于基于搜索的模型,充分挖掘用户行为的相关性,获取精确的用户偏好,对现有的搜索策略仍然是一个挑战。

两大挑战:① 如此长的历史中存在大量的噪声; ② 导致不可行的推理时间和存储成本

6个月点击行为只有23%的用户超过1000

细节解读:借助了pre-train模型

标题: CTR预测中曝光序列建模的自适应小波多分辨率分析

摘要:在点击率(CTR)预测的用户兴趣建模中,曝光序列正在被广泛研究。然而,现有曝光序列建模方法带来了巨大的计算负担&忽略了噪声问题。本文提出通过门控自适应小波多分辨率分析(Gama)来解决高延迟和噪声问题,它可以有效地对极长的曝光序列进行去噪,并以线性计算复杂度自适应地捕捉隐含的多维用户兴趣。这是将非参数多分辨率分析技术集成到深度神经网络中以模拟用户曝光序列的首次尝试。

为了将最具吸引力的商品呈现给不同用户,CTR预估模型都采用了用户兴趣建模的方式。用户行为序列,如点击、购买等行为序列,通常是提取用户兴趣的信息源。最近,一些方法也加入了连续曝光数据来改进用户兴趣建模。在电商推荐中,曝光是将产品的外观、价格、卖点等信息传递给用户。因此,用户的决策、链路行为会受到大量曝光信息的影响。即可从用户曝光历史中提取很多隐含的兴趣

带来的挑战:高耗时和噪声成为在线推荐中利用曝光序列的主要制约因素。与用户行为数据不同,曝光数据有两个主要特点需要关注:1)连续曝光数据比用户行为数据密度大,长度约为1:20。这个密度问题对利用曝光数据的推荐系统的效率提出了更严格的要求。2)曝光数据是有噪声的,在密集曝光序列中用户并不能接收到所有的信息。然而,由于设备限制和隐私问题,有关用户是否真的看到了产品、如果看到了,用户参与了多长时间的详细信息都无法获得。因此,曝光数据中缺少细节信息,给曝光序列建模带来了噪声。一般将孤立的暴露视为与用户关注的任何方面都没有联系的噪声,而过多的噪声会降低用户兴趣建模的效果。

③ GAMA方案:1)Gama将曝光序列视为采样的时变信号,并将信号分解为不同频率的分量。因此,可以通过放弃高频分量来降低噪声;2)Gama利用兴趣门网自适应小波MRA(Multi-Resolution Analysis),通过提取最重要的多维用户兴趣来进一步去噪和提高性能;3)具体地说,兴趣门网以不同的频率调整多个组件的权重,以适应用户的行为历史;Gama在临界暴露信号学习阶段具有线性计算复杂度,因此推理延迟较低。

② Exposure Signal Decomposition : 1) 曝光信号分解(Gama) Gama按照金字塔算法框架,将用户曝光序列 分解为不同频率的多个分量(噪声,一般为信号中的孤立离群值,一般为高频),递归的对低频信号进行分解。

选取合适的小波基对分离暴露序列的特征和模式具有重要意义,正交镜滤波器 和 根据小波基的不同而不同。

可以充分利用从用户曝光序列分解出的多分辨率组件,即a3/d1/d2,来获取多维用户兴趣。不同频率的组件表征了原始用户暴露序列的多种内在模式。在高频率下,组件对应于用户兴趣的短暂模式,如品牌级别的偏好。稳定模式以较低的频率隐含在组件中,例如样式级别首选项。

一致提取信息,提取剩下的信息即为无效信息!

原文是这么说的:从去噪的角度,放弃了频率最高的细节系数d3。由于用户可能很难注意到与用户无关的曝光,这些孤立的曝光干扰了整个曝光序列信号中的高频峰值。

小波相关知识点: ① ; ② ;

标题: 具有元路径引导实例和自我注意机制的可解释会话推荐

应用:SR会话推荐 元路径 可解释性! 南开大学 温延龙团队

Recommendation模型都是无法解释的,即使那些声称可以解释的模型也不能提供清晰和令人信服的用户意图及其如何影响模型决策的解释。尽管一些SR方法使用注意力Attention来反映物品的重要性,或者挖掘诸如连续共现现象等模式来解释他们的发现,但它们的解释不能明确地揭示潜在动机。本文提出元路径引导模型,使用路径实例捕获Item依赖关系,明确揭示潜在动机,以及说明整个推理过程。首先,我们的模型探索元路径引导的实例并利用多头自我注意机制,以揭示这些路径实例下隐藏的动机。为了全面建模用户兴趣和兴趣转移,我们在相邻和非相邻Item中搜索路径。然后,我们通过依次合并用户项交互和基于元路径的上下文来更新项表示

本质探查:本文从推荐可解释性explainable出发:① 通过知识图谱KG(上图左)挖掘Path实例和Item之间的依赖关系,以此建模用户动机,用户的动机可能相当复杂,包含多种潜在成分,兴趣在这些成分之间转换!② 通过对相邻和非相邻Item之间基于元路径的实例进行推理,我们的算法可以明确揭示多个用户的潜在兴趣,捕获它们的转移并评估它们对最终结果的重要性。

定义:① Meta-path 元路径是连接异构图中对象对的关系序列,元路径下的特定路径称为路径实例。元路径特别适合于提取不同方面的特性,因为它们可以描述一个异构图中多种类型实体之间的关系组合。本文两种:session-item meta-paths such as SICI and item-item meta- paths such as

如果我们探索第一个黑色手提包和它邻近的裙子之间的IBICI路径,我们可以发现可能有许多实例遵循这个元路径模式,它代表了用户对品牌和品类的兴趣。② 然而,如果一条路径的中间物品与黑色手提包和裙子有更多的共同特征,例如是相同的颜色或都是粗花呢,这个路径实例也可以揭示用户对特定颜色或粗花呢风格的偏好。因此,我们将与前一个节点不太相似的节点逐一过滤掉,并使用剩下的路径作为最终的采样结果。

Item Representation :① 一个商品的Embs表示形式是由三个方面决定的:1) 商品的基本特征(deepwalk),2) 商品前面的商品,3)用户点击该商品背后的潜在兴趣(path实例) ② item-att 如下图公式? 考虑到路径实例和交互之间的相互影响,这里我们使用先前Item的表示(前面所有信息的组合)和路径实例(相邻Item之间)一起来更新Item表示,允许它同时捕捉用户的长期和短期兴趣。

标题:多行为顺序Trans推荐系统

应用:华为诺亚方舟 用户时序多行为推荐

摘要用户时序多行为,探索用户多行为交互背后的细粒度项目关系对于提高推荐系统的性能至关重要。但现有方法似乎在①建模异构物品级多行为依赖关系、②捕获不同的多行为顺序动态或③缓解数据稀疏问题方面存在局限性。本文提出了 MB-STR ,一种多行为序列Trans推荐系统,与典型的 Transformer 相比,MB-Trans 以捕获多行为异构依赖关系以及特定于行为的语义, MB-SPG 来编码多个行为之间的不同顺序模式,并结合 BA-Pred 以更好地利用多行为行为监督。

本质探查:① 在大多数真实的推荐场景中,用户交互数据有两个重要的特征: 顺序和多行为。用户以连续的方式与物品交互,他们的兴趣模式本质上是多样化的,并不断演变!② multi-behivarior 点击/收藏/加购不同行为类型代表不同的交互,能够反应用户细粒度动态的兴趣(fine-grained interest dynamic)演变!

Multi-Behavior Sequential Pattern Modeling(右图右边):刻画点击/购买行为的差异:点击代表瞬时兴趣(由于价格优惠或UI设计新颖又或猎奇心理再或攀比细腻),对近期决策影响较大;购买行为影响周期较长。P[k,i,j] 取决于两个行动及其对应的行为类型i和j之间的时间距离。 Relative

Behavior-Aware Prediction Module(左下图): 不同类型的行为可能是弱相关的,甚至是矛盾的(例如,在评级网站上喜欢和不喜欢),这可能会导致性能下降,称为负转移。类似于PLE

Behavior-Aware Masked Item Prediction Objective: 通过只屏蔽条目并保持行为类型不被屏蔽,该模型执行行为感知预测,从而更好地捕捉不同行为类型下的不同用户偏好。

标题: 序列推荐:解耦侧信息融合技术

摘要:顺序推荐(SR)的边信息融合旨在有效地利用各种边信息来提高下一项预测的性能。大多数最先进的方法都建立在自注意力网络之上,并专注于探索各种解决方案,以在注意力层之前集成项目嵌入和边信息嵌入。然而,我们的分析表明,由于秩瓶颈,各种嵌入的早期集成限制了注意力矩阵的表达能力,并限制了梯度的灵活性。此外,它还涉及不同异构信息资源之间的混合相关性,给注意力计算带来了额外的干扰。受此启发,我们提出了顺序推荐的解耦辅助信息融合(DIF-SR),它将辅助信息从输入移动到注意层,并将各种辅助信息和项目表示的注意力计算解耦

标题: HIEN: 用于点击率预估的分层意图embedding学习

应用:腾讯 & 上交 展示广告 CTR预估

摘要:点击率(CTR)预测在特征交互建模和用户兴趣建模方法是点击率预测中的两个热门领域;但是①传统方法将Item属性作为ID类特征,而忽略了结构信息和属性之间的依赖关系;② 当从用户-物品交互中挖掘用户兴趣时,当前的模型忽略了不同属性的用户意图和物品意图,这缺乏可解释性(interpretability/explainable)。基于此,本文提出了一种基于自底向上树聚合的属性图中考虑属性依赖关系的分层意向嵌入网络(hierarchy Intention Embedding Network, HIEN)方法。HIEN还根据我们提出的分层注意机制来捕获用户对不同物品属性的意图以及物品意图。

本质探查:① 在在线广告系统中,一个商品通常包含多个属性,如item_id、category_id、advertiser_id等。传统的方法将这些ID属性转换为one-hot/dense向量,然后嵌入到密集的实值向量中进行特征交互。但是,现有的方法忽略了物品属性之间的依赖关系。Most of the existing works in this field 当前的用户兴趣模型主要通过用户和物品之间的交互来挖掘兴趣,而忽略了对不同属性的用户意图和物品意图。例如,用户可能会根据类别和发布时间点击新游戏广告。相比之下,一个物品可能会被用户点击,因为他或她的年龄和职业。现有的用户兴趣模型无法揭示这些不同属性的意图,这缺乏可解释性。

Fig. 1(a),一家移动游戏(行业)公司(广告商)发布了一款新游戏(道具),其中就包含了上述关系。

在构造属性图G_uG_v时,直观方法是执行图卷积;但是,不同属性的特性差异很大。例如,商品属性集中的ID和价格具有不同的语义和分布,在图学习中聚合它们可能会引入噪声。然而,大多数现有的基于 GNN 的方法执行图卷积以聚合来自相邻节点的信息,而忽略了不同属性之间的不同特征。这里采用自下而上的聚合策略来考虑结构特征信息,该策略保持不同属性的固有特征。 对于G_u^tG_v^t中的每个属性树T,需要学习节点的表征e_h。通过自下而上的方式聚合其子节点e_{C_h}来学习e_he_h=g(e_h,e_{C_h})。基于几个最先进的 GCN 模型实现g()用于属性树聚合,具体如下,

  • NGCF聚合器,考虑中心节点和邻居节点的特征交互,公式如下,\odot为逐元素相乘
  • 拼接和乘法聚合器(CP聚合器),考虑节点间的交互,公式如下,

通过属性聚合可以得到新的表征为下式,前两个为商品和用户得ID embedding,中间两个为聚合后的属性embedding,然后是上下文embedding和用户交互的商品序列embedding。

在细化属性表征之后,学习用户和商品表征并捕获用户兴趣。现有的用户兴趣方法可以分为两类:用户行为建模和基于 GNN 的方法。然而,这些方法中的大多数都忽略了不同属性的用户意图和商品意图。例如,用户可能会因其类别和发布时间而点击新游戏广告。

给定用户-商品二分图G_{uv},使用用户-商品边E_{uv}来学习它们的embedding。为了考虑不同商品属性的用户意图,为每个商品属性分配一个注意力权重还考虑层次属性的内在影响。公式如下,其中a为用户和商品的各个属性计算的注意力系数,在计算过程中需要考虑属性树的层级结构,从图1的树结构可以发现e_x^4e_x^2的父节点,因此要结合考虑。

  • 1.编写一个程序,将从键盘输入n个字符串保存在数组A中。在输入字符串之前,先输入n个值。要求,数组A动态申请空间,程序结束释放。

    2.题目1的基础上,输出n个字符串中最长和最短的,计算n个串的平均长度


  • 设计并实现二维坐标系下的点类Point,类的每个对象有横纵坐标。为类Point添加必要的计算函数,例如,计算给定点到(0,0)的距离,计算给定两点间的距离,判断给定的3个点是否可以构成一个三角形。

    3.设计并实现一个直线类,定义计算函数,求直线的斜率,判别给定点是否在线上,计算给定点到直线的距离

    请输入任意两个坐标:1 2 3 4
    该直线方程是:y=1x+1
    该直线方程与x轴的交点:(-1,0)
    该直线方程与y轴的交点:(0,1)
    

    4.定义圆柱体类Cylinder,有私有成员变量底圆半径r,高h,公有成员函数,底圆周长,底圆面积及圆柱体体积。输入半径和高,计算圆柱体的表面积和体积。

    输入圆柱体的半径和高:2 3
    

  • 1.为第二章设计的微微坐标系下的类Point添加必要的构造函数、复制构造函数和析构函数。要求能在主函数接收一下形势的对象声明:

    2.习题1的基础上,为Point添加一个静态变量,统计创建的点的个数。

    3.模仿习题1的形式,为第二章习题中设计类Course,添加构造函数,复制构造函数,析构函数,静态变量,统计课程数。

    4.重新设计第二章习题中的MyLine类,让其作为点类Point的封闭类。添加必要的构造函数、复制构造函数和析构函数。

    6.定义一个类,在其私有成员变量中保存从键盘输入的10个int类型值,然后按与输入的相反顺序输出它们


    1. 集合Set,重载运算符+(表示集合的并), -(表示集合的差), *(表示集合的交),<(表示集合的真子集),==(判断两个集合是否相等),!=(判断两个集合是否不相等).

  • 3.设计一个几何图形类,派生类有三角形,正方形,圆形等,定义必要的成员变量,添加构造函数,析构函数和成员函数。成员函数包括计算图形的周长,面积,显示图形信息等。
    
    

  • 输入正方角形的边长:7

  • 1.利用流格式控制符,从键盘输入成绩和姓名,然后进行输出,要求名字左对齐,分数右对齐.

    2.读取一行文字,将此行文字颠倒顺序输出.

    4.输入若干个整数,分别以16进制,8进制输出,然后以10个字符宽度输出,宽度不足左边补0.

  1. 设置标准输入重定向,文件data.txt中每一行保存一个整数,求全部整数的个数和平均值.

    个数:10,平均数:5.5
    

  • 1.输入三角形的3边,判断是否合理,不合理给出提示,合理计算面积并将结果存入文件.

    请输入三角形的三条边:3 4 5
    

    2.设计程序,打开一个指定文本文件,在每行前面加上行号后输出到另一个文本文件中.

    3.读入一个源程序文件,删除全部注释内容,即以“//”开始到行末尾的文本,以及“/*...*/”包括的文字,产生新的源程序文件.

    4.设有两个按升序排列的文本文件 data1.txt 和 data2.txt,包含若干个整数,要求两个文件合并成一个按升序排列的新文件 data.txt,且包含两个文件的全部数据.

    5.文本文件data.txt 包含若干整数,每个整数之间用空格分隔,要求将奇数保存在 file1.txt 中,偶数保存在 file2.txt 中.


  • 1.编写一个模板函数,返回两个数中的最大值。使用整形,浮点型,字符型测试模板

    2.编写函数模板,实现n个数据由小到大排序。使用整形,浮点型,字符型测试模板

    3.编写函数模板,求array数组前size个元素之和。使用整形,浮点型,字符型测试模板

    创建Employee类,保护数据成员 姓名,街道地址,市,省,邮政编码。构造函数,ChangeName函数改变姓名,Display打印完整数据 ,定义在类外.

我要回帖

更多关于 loga1等于多少 的文章

 

随机推荐