世界上真存在高大上的图片 平台架构介绍的架构吗

流动的推荐系统——兴趣Feed技术架构与实现 - 企业架构 - ITeye资讯
相关知识库:
引用
作者:陈开江@刑无刀,金融科技公司天农科技CTO,曾任新浪微博资深推荐算法工程师,考拉FM算法主管,先后负责微博反垃圾、基础数据挖掘、智能客服平台、个性化推荐等产品的后端算法研发,为考拉FM从零构建了个性化音频推荐系统。
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》
流动的推荐系统
我们经常谈论的推荐系统(Recommender System),从形式上看是比较“静态”的推荐,通常位于网页主要信息的周边,比如电商网站的“看了又看”、“买了又买”。这种推荐系统在大多数场景下无法独立撑起一款产品。
依据维基百科Recommender System词条的定义:“推荐系统是信息过滤系统的子类,专门用于预测用户对一个项目偏好或者评分进行预测”,则兴趣Feed也是一种推荐系统:它预测用户对社交网络中相邻节点动态内容喜好程度,并根据喜好程度决定这些动态内容的展示顺序。
Feed是一种信息流,就是我们看到的“动态”、“新鲜事”。当用户与一些内容源建立了连接(如关注、赞、收藏等)之后,这些内容源产生的新动作,就会源源不断地通过连接流向用户,不同内容源产生的动态被聚合后呈现在用户面前,就是Feed。
传播社交网络动态的Feed,通常默认按照动态产生的时间顺序出现在你面前,称为时间线(timeline)。国外的Twitter、Instagram,一开始都是时间线形式的Feed;国内的微博、QQ空间、微信朋友圈至今仍然是时间线。
但是一些老牌时间线Feed都有计划要切换成依据算法排序的个性化兴趣Feed,微博在2012年尝试过智能排序,Twitter在去年上线了一个叫做“当你不在时发生了什么”的功能,Facebook甚至早就放弃对其NewsFeed的时间线排序。
出现这种情况的原因主要有两个。一方面,智能手机的普及和移动网络的提速,使得UGC越来越容易,用户动态的产生和浏览越来越碎片化,数量和频度陡增,以前用户消费无压力的时间线Feed,开始出现信息过载或者错过一些更感兴趣的内容的情况。Instagram说他们的用户平均错过了70%的内容,Facebook也曾说每个用户每天只能看完1500条新鲜事中的300条而已。另一方面,时间线Feed不利于商业化的开展,商业账号肆无忌惮地以动态的方式发布广告,不仅影响用户体验,还完全绕过平台方进行商业活动,形成一种“公共资源悲剧”。
所以,Feed的发展趋势必然是从时间线到利用算法重排序,按照用户兴趣的相关程度展示Feed,一方面要帮用户解决信息过载问题,另一方面要平衡好平台上的商业价值和用户体验。
成功的兴趣Feed——NewsFeed
一个成功的兴趣Feed,就是Facebook的NewsFeed。那是2006年9月,Facebook上线了朋友新鲜事,与之同时问世的还有MiniFeed(个人动态)。上线至今十周年,NewsFeed已经成为日收入几千万美元的现金牛。
Facebook刚上线这个功能时,曾引发广泛的争议,焦点就是“隐私”问题——我的动态怎么能让别人看见呢?用户不停质疑和抗议,又忍不住继续使用,Facebook就在争议声中增加了最初的隐私控制功能,比如隐藏自己的动态,而NewsFeed就这样坚持了下来。
2009年,Facebook在收购FriendFeed之后,将其赞(like)功能整合进了NewsFeed中,并开始按照热门程度对Feed重排序,这又引起了用户们的反抗,因为大家已经习惯按照时间顺序阅读。
10年来,NewsFeed有数不清的改进,甚至每天线上会同时部署很多算法版本进行AB测试。但EdgeRank算法是这条改进之路的一个标志性建筑,我们可以将NewsFeed排序策略分为EdgeRank前时代、EdgeRank时代和EdgeRank后时代。
在EdgeRank前时代,按照Facebook首席产品官Chris Cox的说法:“最初,NewsFeed排序就是在拍脑袋,给照片加点权重,给系统消息降点权重。”我们的算法工程师们读到这些,想必要会心一笑:今天高大上的Facebook,又是人工智能又是深度学习,竟然也是从这个时代走过来的。
之后,Serkan Piantino(现任Facebook人工智能研究院工程总监)在2010年左右领导开发了第一版EdgeRank算法。
EdgeRank算法
了解大名鼎鼎的EdgeRank是怎么回事,先看朋友的一条新鲜事(动态)诞生后怎么流动到你的面前:
首先你的一个朋友产生了一条新鲜事,比如他发布一条想法、赞了一个主页、给一张照片加了标签。
然后经过你这个朋友的介绍,到了你的家门口(你的首页),你一开门(登录或者刷新)就可能看见它。
总体来说,新的还是比旧的更能得到你的接见。
新鲜事不多时,开门一个一个寒暄可能还行,它们也等得起,内容太多时,就得考虑个先来后到了。
这几个步骤,大致刻画了EdgeRank的思想,简单直接。基于这个假设,EdgeRank排序算法主要考虑了三个因素:
亲密度。它对应了第二个步骤背后的思想,那么多人介绍过来,我们当然要优先照顾更“喜欢”的人了,亲密度的量化要考虑平日里你和这个朋友“走动”是否频繁、连接是否紧密。
边权重。这也是EdgeRank名字含义所在:不同的动态权重不同,点赞动态和发布照片显然不一样。
新鲜度。既然是NewsFeed,那么新一些(New)的动态就更受青睐。
三个分数,最终用相乘的方式共同作用于每一条新鲜事的分数,用于排序和筛选,如图1所示。这个排序方法的确很简单,只是量化了三个主要因素,然后主观地相乘,没有任何目标优化思想在背后。根据Facebook披露的消息,早期的EdgeRank的确没有引入机器学习,所以根本称不上是智能的算法。
图1 EdgeRank排序算法原理
向机器学习要智能
2011年之后,Facebook内部就不再提EdgeRank算法了,NewsFeed进入EdgeRank后时代。此时的Facebook,月活跃用户超过10亿,约2000万的公共主页,移动设备贡献了大多数流量,面对复杂的上下文因素,必须引入机器学习才能Hold整个场面。
引入机器学习的好处显而易见,原来考虑的因素就是机器学习模型的特征,一个线性模型可以处理大规模的稀疏特征,并且会为每一个特征寻找到最优的参数(即权重)。在这样的框架下,产品和工程人员只需要去尽力发现那些影响排序的特征,然后把特征交给机器学习模型,就万事大吉。
NewsFeed团队成员在原来EdgeRank的基础上,更加细致地定义了不同层级的亲密度。用深度神经网络理解图片内容和文字内容,可以知道相片中的物体是不是用户感兴趣的,还可以分析出新鲜事的讨论话题用于排序。随着产品迭代,考虑的排序因素越来越多,诸如阅读时间长短、视频内容、链接内容,或者取关、隐藏一个源等。前前后后一共考虑了10万多的排序因素(模型的特征空间应该会更高),如果还按照原来的方式去调节权重,显然既不科学又很低效。
破解机器学习和数据的局限
除了全面转向机器学习之外,NewsFeed团队也在重新思考人和算法的关系。他们要关心的是到底“如何把用户真正最关心的找出来”,而不仅仅是“如何提高点击率”。Facebook一直是数据驱动的,这也是他们能够在争议中把NewsFeed坚持下来的信念来源,但是不是唯数据马首是瞻,团队内部一直有很多思考。比如:
团队发现有85%的隐藏新鲜事操作来自5%的人,经过与这些用户沟通才发现,原来这5%的人把“隐藏”当作邮件里的“标记已读”了,对喜不喜欢的新鲜事只要看过就会点击隐藏。
对于悲伤的事情,用户可能关心但不会点赞。
对于有些点赞,用户可能并不是真的感兴趣,只是“点赞狂魔”发狂而已。
用户阅读一篇长帖子,读到一半不读了,也并不能说明他对这篇帖子不感兴趣。
这些都让他们开始关注到机器学习和数据的局限。于是,在算法团队之外,Facebook搭建了一个遍布全球的人肉评测小组。人肉评测小组的工作不是简单地对算法筛选结果进行喜欢/不喜欢的标注,而是非常深入地阐述为什么喜欢/不喜欢算法筛选结果,而且他们会与工程师详细交流评测结果,因为这种人肉评测方式可以有效地拆穿数据说谎,让产品远离一味追求提高数据指标的怪圈。
此外,NewsFeed还有两个重要的配套设施:社交关系推荐系统和广告系统。
NewsFeed存在是因为用户建立了大量的社交联系,出现信息过载,因此“你可能感兴趣的人”(people you may know)推荐系统是必不可少的,这是NewsFeed“合法”存在的前提。
这是一个我们在产品形式上比较熟悉的推荐系统,它的核心是一套大规模矩阵分解算法,利用已有的协同矩阵为你推荐可能想建立联系的新Item,包括用户、App、公共主页等。
Facebook的广告形态非常多样,包括:
Suggested Page(你可能喜欢的公众页)
Page Post(公众号帖子推广)
Suggested App(你可能喜欢的应用)
Video Ads(视频广告)
所有的数据都显示,重排序后的NewsFeed可以让用户阅读积极性提高很多。因此,虽然外界一直有质疑和争吵,但是NewsFeed重排序并没有停止过。显然“大家一起穷,各自拼人品”的时间线不符合商业社会的基本哲学,提高效率的兴趣Feed才是一种必然。
并不复杂的兴趣Feed实现
兴趣Feed如何实现?这里先介绍创意内容收集工具Pinterest的Smart Feed,然后总结一些通用技术点。
Smart Feed技术实现
整个Smart Feed后端主要模块逻辑如图2,由三个部分构成:
后台任务(Worker)
内容生成器(Content Generator)
前端服务(Service)
图2 Smart Feed后端架构后台任务(worker)
后台任务(worker)
Worker的职责有两个:
接收数据源产生的新Pin,决定这个Pin该推送给哪些用户,并针对每一个它该推送的用户,给出这个Pin对这个用户的吸引程度,俗称“打分”。
存储这些经过打分的Pin,备用。
图3 Smart Feed后台任务模块
打了分的Pin就会根据其不同来源分开存储(Pool)。存储结构是一个优先队列,按照打分排序,新的Pin进来和原来(但用户还未看)的Pin一起排序。
这个存储的Pool可以直接用KV数据库顶上,HBase、Redis都可以,每次送入数据库的数据是一个三元组:(user, pin, score)。Pinterest选用的是HBase。一共有两个HBase集群,一个存还没看过的Pin,一个存已经看过的Pin。
当数据源产生了新的Pin之后,需要由一个叫PinLater的模块经过Zen(封装了HBase基本操作的图数据存储模块)推送给粉丝。这里推送是异步的,有几秒到几分钟的延迟。
内容生成器(Content Generator)
如图4,内容生成器要做的是:
决定返回多少个Pin,数量不是固定的,会根据用户访问频繁程度以及上次看到的新内容多少来决定。
分配来源的比例构成,这块Pinterest没有透露分配比例,我们可以猜一下,也许是固定比例,也许是有一些启发式算法。
将Pin排成一定的顺序,按照分数排序就好了。
待推送内容要从Pool中删除,以保证每次请求的都是没看过的。
图4 Smart Feed内容生成器模块
每一次产生的待推送内容合在一起叫做一个“块”(chunk)。
前端服务(Feed service)
如图5,Feed service提供前端的服务。为了提供高可用服务,Feed service的任务有二个:
接收从内容生成器返回的“新”内容。
新内容合并上一次的“旧”内容。
图5 Smart Feed前端服务模块
Pinterest排序算法
排序算法名字叫做Pinnability。我们可以将其翻译成“可Pin度”,可Pin度是一组机器学习模型,用于衡量一个用户对一条Pin产生互动的可能性。
图6 Pinnability排序算法的任务
Pinnability模型用到的机器学习算法都是比较常用的模型,包括逻辑回归(LR)、支持向量机(SVM)、GBDT和卷积神经网络(CNN)。整个Pinnability的模型流程如图7所示。模型产生的流程分为三个阶段:准备训练数据、训练模型、上线使用。
图7 Pinnability的模型流程
兴趣Feed的技术要点
分析完Pinterest的兴趣Feed实现,我们再总结一下一个通用的兴趣Feed需要考虑哪些方面。
整体逻辑上,一个兴趣Feed逻辑结构大致如图8所示。
图8 兴趣Feed整体逻辑
数据模型
Feed这种形式又叫做Activity Stream。顾名思义,就是用户的动作(Activity)形成的数据流(Stream)。
Feed的基本数据有三个:用户(User)、动态(Activity)和关系(Connection)。
表达用户动态(Activity)的元素有相应的规范,叫做Atom,可以参考它,并结合产品需求,定义出自己的Feed数据模型。根据Atom的定义,一条动态包含以下元素:
Time:发生的时间。
Actor:由谁发出的?通常Actor就是用户ID,但是我们也可以扩展到其它拟人化物体上,如关注的一个“店铺”、收藏的一部“电影”。
Verb:动词,动态核心是哪一个动作?比如“follow”、“like”等。
Object:动作作用到最主要的对象,只能有一个。
Target:动作的最终目标,与verb有关,可以没有。它对应英语中介词to后接的事物,比如“John saved a movie to his wishlist”(John保存了一部电影到清单里),这里电影就是Object,而清单就是Target。
Title:动态的标题,自然语言描述。
Summary:通常是一小段HTML代码,是对这个Activity的描述,还可能包含类似缩略图这样的可视化元素,可以理解为Activity的view,不是必须的。
举个例子: 日23:51:01(Time)@刑无刀(Actor)分享了(Verb) 一条微博(Object)给 @ResysChina(Target)。Title就是前面这句话去掉括号后的内容,Summary暂略。
关系即连接。互联网产品里处处皆连接,有强有弱,好友关系、关注关系等社交是较强的连接,还有点赞、收藏、评论、浏览,这些动作都可以认为用户和另一个对象之间建立了连接。有了连接,就有Feed的传递和发布。
定义一个连接的元素有:
from: 连接的发起方。
to:被连接方。
type/name: 连接的类型/名字、关注、加好友、点赞、浏览、评论等。
affinity:连接的强弱。
如果把建立一个连接也视为一个Atom模型的话,from就对应其中的Actor,to就对应其中的Object。
连接的发起从from到to,动态的流动从to到from。连接和动态是相互加强的,类似蛋和鸡的关系:有了动态,就会产生新的连接;有了新的连接,就可以喂(Feed)给你更多的动态内容。
发布新动态
用户登录/刷新后,Feed是怎么产生的?内容出现在受众的Feed中,这个过程称为Fan-out。
我们的直觉上是这样实现的:
获取用户所有连接的终点(如好友或者关注对象)。
获取这些连接终点(关注对象)产生的新内容(Activity)。
排序后输出。
图9 拉模式产生内容
这就是行话说的拉模式(Fan-out-on-load),Feed是在用户登录/刷新后实时产生的。
拉模式的好处如下:
实现简单直接:一行SQL就搞定了。
实时:内容产生了,受众只要刷新就看得见。
但是也存在不足:
随着连接数的增加,这个操作的复杂度是指数级增加的,显然不可取。
内存中要保留每个人的产生的内容。
服务很难做到高可用。
与拉模式对应的,还有一个推模式(Fan-out-on-write)。
图10 推模式产生内容
当一个用户(Actor)产生了一条Activity后,不管受众是否刷新,立即将这条内容推送给相应的用户(和这个Actor建立了连接的人),系统为每一个用户单独开辟一个Feed存储区域,用于接收推送的内容。当用户登录后,系统只需要读取他自己的Feed即可。
推模式的好处显而易见:在用户访问自己的Feed时,几乎没有任何复杂的查询操作,所以服务可用性较高。
推模式也有如下的不足:
大量的写操作:每一个粉丝都要写一次。
大量的冗余存储:每一条内容都要存储N份(受众数量)。
非实时:一条内容产生后,有一定的延迟才会到达受众Feed中。
既然两者各有优劣,那么将两者结合起来呢?一种简单的结合方案是全局的:
对于活跃度高的用户,使用推模式,每次他们刷新时不用等待太久,而且内容页相对多一些。
对于活跃度没有那么高的用户,使用拉模式,当他们登录时才拉取最新的内容。
对于热门的内容生产者,缓存其最新的N条内容,用于不同场景下拉取。
还有一种结合方案是分用户的,这是Etsy的设计方案:
如果受众用户与内容产生用户之间的亲密度高,则优先推送,因为这个内容更可能被这个受众所感兴趣。
如果受众用户与内容产生用户之间的亲密度低,则推迟推送或者不推送。
也不是完全遵循亲密度顺序,而是采用与之相关的概率。
在中小型的社交网络上,采用纯推模式就够用了,结合的方案可以等业务发展到一定规模后再考虑。
一个推模式的Feed发布实现很简单:
一个集中存储所有动态内容的数据库,一般是MySQL。
为每个用户保存各自排序后的Feed,一般是Key-Value数据库,如Redis或者HBase。
一个类似Pinlater的分布式异步任务队列,Celery是一个不错的选择。
按兴趣排序
兴趣Feed的排序,要避免陷入两个误区:
没有目标的排序。设计排序算法之前,一定要先弄清楚:为什么要对时间序重排?希望达到什么目标?目标用哪些指标量化?只有先确定目标,才能检验和优化算法。
人工量化排序因素。我们经常见到的产品或者运营的同学要求对某个因素加权、降权。这样做很不明智,因为人的知识利于做启发,不利于做量化。人可以告诉算法很多可能有用的排序因素,缩短效果提升的路径,但是人直接指定参数的权重,对效果提升来说基本上有百害而无一利。
我们从机器学习的思路来简单设计一个提升互动率的兴趣Feed。首先,定义好互动行为包括哪些,比如点赞、转发、评论和查看详情等。其次,区分好正向互动和负向互动,比如隐藏某条内容、点击不感兴趣等是负向的互动。
这是一个典型的二分类监督学习问题,将正向的互动视为同一类。一条动态产生之后,展示给用户之前,用机器学习来预测用户对产生正向互动的概率,预测的概率就可以作为兴趣排序分数输出。
能产生概率输出的二分类算法都可以用在这里,包括贝叶斯、最大熵和逻辑回归等。互联网常用的是逻辑回归,它有很多好处:
线性模型,足够简单。
产生0-1之间的输出,互相可以比较。
开源实现多,初始技术成本小。
工业界已经反复验证过。
用机器学习来为兴趣Feed排序,最重要的是将&动态,受众&这个数据对表示成特征向量。特征向量就是排序因素的向量化表述。在算法选定后,人工可以花很多力气在寻找影响排序的因素上,这就是传说中的“特征工程”。特征工程还包括对已有的特征进行选择,选择的目的是:机器学习模型完成后,以RPC的方式提供服务,供Feed系统中新动态内容发布时调用。
关于RPC框架,选用Apache Thrift即可。机器学习模型训练框架有很多,我们可以选Vowpal Wabbit,它是一个分布式机器学习框架,可以和Hadoop轻松结合。
数据和效果追踪
我们既要通过历史数据来寻找算法的最优参数,又要通过新的数据验证排序效果,所以我们要关注数据的存储和使用。
与兴趣Feed相关的数据有:
目标有关的互动行为数据(记录每一个用户在Feed上的操作行为)。
曝光给用户的内容(一条曝光要有唯一的ID,曝光的内容仅记录ID即可)。
互动行为与曝光的映射关系(每条互动数据要对应到一条曝光数据)。
用户profile(提供用户特征,来自离线挖掘和数据同步)。
Feed内容分析数据(提供内容特征)。
日志的收集和存储,一般选用Kafka和Hadoop即可,用Hive处理数据,生成训练样本,监控产品指标。其中比较重要的是模型的参数更新,即训练模型。
对于一个初级的兴趣Feed,没必要做到在线实时更新排序算法的参数,所以数据的pipeline可以借鉴Pinterest。例如,选用逻辑回归预测互动行为排序Feed,离线阶段关注模型的AUC是否有提升。
另外,互动数据相比全部曝光数据,数量会小得多,所以在生成训练数据时需要对负样本(展示了却没有产生互动的样本)进行采样,采样比例也是一个可以优化的参数,固定算法和特征后选择效果最好的比例。
AB测试时关注具体的产品目标是否有提升,比如互动率等,同时还要根据产品具体形态关注一些辅助指标。
兴趣Feed的挑战及应对
兴趣Feed是在互联网深度发展之后的一种必然趋势,很多Feed类产品都已经在数据上验证了这一点。但是我们还是要清醒地认识到:兴趣Feed类产品虽然概念简单,挑战却不少。
用户习惯
时间排序的Feed非常自然,用户很容易接受。而一旦用算法决定Feed的排列顺序,用户是否能够接受,非常挑战产品的设计能力。尤其是如果一开始是时间线Feed,要转变成兴趣Feed,这个切换相对于一开始就是兴趣Feed,用户习惯改变要更难一些。
面对这一挑战,我们需要考虑几点:
是不是真的需要兴趣Feed?信息没有过载是不需要兴趣Feed的。是否信息过载,数据很容易验证:到底用户错过的了多少内容?
兴趣Feed产品设计需要深入思考,虽然用算法为用户过滤了他不感兴趣的内容,但是在UI/UE上需要淡化技术痕迹,呈现出更自然的浏览方式,比如说是不是可以考虑算法筛选后,展示上依然是时间序。
兴趣Feed的算法效果提升要快。一开始兴趣Feed排序效果不好很正常,只要在用户失去耐心之前将其做到可用,风险就会小很多。
技术上的挑战
在一个需要用算法排序的Feed类产品上,数据量级应该不会小了,而且如果兴趣Feed真的有效,那么数据量增加速度也会提升,所以相应的技术挑战会很快出现。
Feed服务的高可用。要保证关键模块故障时优雅降级,任何数据都有冗余,并且能够热切换。
大规模机器学习。高维稀疏的特征空间,超大的样本量,这些都要求机器学习平台能够处理大规模学习问题,它一定是并行化的,也方便算法工程师快速进行迭代。
在线实验系统。对在线流量进行正交切分,尽量多地进行不同实验,而且同时进行的实验之间互不影响,得到的实验结论科学有效。这一块可以参考Google的在线实验系统,国内百度等大型互联网公司也公开分享过它们的实验系统如何划分流量。
算法的边界
我们不得不承认,算法是有边界的。只不过很多产品距离边界还很远,还没有充分把数据中蕴含的价值挖掘出来。Facebook建立人肉评测小组,说明他们已经非常重视利用人的创造力弥补算法的不足。
由于大多数人在大多数情况下是非理性的,感兴趣的标准也会呈现不一致的情况,再加上社会群体心理的干扰,为个人寻找兴趣内容是一个非常复杂的课题。
另外,算法本身的引入,也给整个产品增加了复杂度,在算法干预下再测量用户对内容的感兴趣程度,很类似量子理论中的“测不准原理”。
面对算法接管我们的Feed内容,我们既不能做出太多主观决策,相信科学的算法一定能够得到比纯人力主观指定的规则更好的结果,但是也不能偷懒,需要从数据中得到启示,用我们上帝般的视角巡视整个局面,帮助算法表现得更好。
订阅2016年程序员(含iOS、Android及印刷版)请访问
[b][/b][/img][/flash][/url][/img]&&&& [/color]
相关资源推荐相关文章推荐
适应范围:一个工作流网站。已前端效果为重的,浏览类的网站不在次讨论中
XX项目的总体目标
1,基本目标:系统稳定运行,有问题2小时内解决问题或者给予用户可接受的答复。
2,核心目标:提...
一个好的技术团队应该具备哪些特质?一个好的技术团队的leader应该怎样实施管理?技术和业务如何做到完美结合?这是来自天猫技术团队的经验,仅供参考。
2012年,无线化大规模到来的前...
雪球网(),是一家股票信息网站,给投资者提供跨市场、跨品种的数据查询、新闻订阅和互动交流服务,目前覆盖A股、港股、美股市场。 不久前,InfoQ中文站通过电子邮件对雪球网的技术团队...
做了多年技术也历经很多公司,不同的团队有不同的做事风格!
关系技能修炼篇
01. “技术”不能让一个企业运转起来,而“关系”能。----Patricia Cripp
02. 成功公式的一个最重要因素就是要明白如何与人相处。----美国总统西奥多·罗斯...
如果开发的应用比较复杂,涉及到移动客户端/网站/服务端以及各种用户权限,那么就需要有一个系统架构的工作。传统的开发模式可能是架构师在前期单独制定架构,然后推行给开发人员,但在SCRUM的理念里面,强调...
一直以来,开发团队的管理似乎都是项目经理的事情,从生命周期管理到人力资源的配置,从进度管理到客户关系管理。其实在开发团队中,还有另一位默默无闻的管理大师——架构师。
AD:2014WOT全球软件技术...
项目团队需要重新认识架构师的职责
架构师是对所有重要事情做出决定的人。但是行业内对于架构师的负面认识正越来越多,看来我们需要重新认识架构师的职责
这篇译文最早发布在infoQ下面的一个微信公众号:“聊聊架构”上,想着我在园子几乎沉寂了接近两年之久,于是借机复活。哈哈哈,这是一篇关于架构的译文,会介绍比较多的一些工具、以及框架,给对架构感...
近几年来随着互联网的飞速发展,新的架构实践方式不断涌现,但是有一件事情是永恒不变的,那就是-“架构之道”;关于如何设计出灵活、高可用性以及能够快速适应变化的系统架构,我们依旧还有很...
他的最新文章
讲师:董晓杰
讲师:姚远
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)403 Forbidden
403 Forbidden
You don't have permission to access the URL on this server.Powered by TengineAccess denied |
used Cloudflare to restrict access
Please enable cookies.
What happened?
The owner of this website () has banned your access based on your browser's signature (3c72cce0a3575176-ua98).—19日,由CSDN重磅打造的“2016中国软件开发者大会”在上海光大会展中心国际大酒店隆重召开。在第二天的架构实践论坛上,来自蚂蚁金服、宅米网、携程旅游网、腾讯的资深架构师详细剖析了在各自产品研发方面的架构实践。[]
3月19日下午13:30,架构实践论坛在1号店精准化部门总架构师陈敏敏下继续进行,来自当当网、大众点评、特赞、1号店、出门问问的资深架构师深度分享各自产品的架构设计与实践经验。[]
3月18日 数据库核心技术与实战应用峰会
本论坛力邀业界知名技术人共同探讨云数据库实战、新一代数据库平台、产品选型、性能调优、大数据应用实战等领域的话题与技术。【】
3月19日 互联网应用架构实战峰会
本论坛力邀业界知名技术人同探讨高可用/高并发系统架构设计、新技术应用、移动应用架构、微服务、智能硬件架构等领域的话题与技术。【】
17:10BDTC 2015全体大会的最后一个演讲来自美国密歇根州立大学终身教授金榕,他的演讲主题是“机器学习算——让大数据上的不可能变为可能”。演讲期间,他首先指出了时下机器学习所存在的主要挑战——数据体量和高维数据,随后他对随机算法、随机投影、对偶随机投影等方面进行了详细介绍。并在演讲最后进行了展望,主要包括三个方面:Impossibility定理存在于多种随机机器学习方法;研发新的理论和方法提升这些随机方法的下界;应用这些改进的随机机器学习方法。
16:45Cloudera公司研发工程师、Kudu发明人Todd Lipcon带来的演讲主题是 《Kudu:Storage for Fast Analytics on fast Data》。Todd Lipcon同时也是Hadoop、HBASE等项目的成员。他表示Kudu是一个新的存储引擎,这个项目研发的动机是希望解决HBASE等等这些不能兼顾高性能分析和更新的问题,Todd Lipcon详细介绍了Kudu如何简化构建分析型应用架构,如何提高分析的性能,另外,他邀请了小米公司的一个工程师给他助阵,演示Kudu上面的实际应用效果。
16:10星环科技创始人兼CTO孙元浩首先介绍了传统数据仓库面临的问题:数据量增长过快,导致运算效率下降;数据抽取处理的代价过高,无法在统一的视图下处理;无法处理多种类型的数据;不具备进行搜索或关联分析以发现隐藏关系的能力;不具备数据挖掘等高级分析的能力。随后,他详细介绍了新时代逻辑数据仓库需要具备的特性:数据、计算均分布化;需要具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力;混合负载和多租户SLA管理能力。在多租户资源管理用例中,孙元浩指出资源调度框架之争,Mesos和Kubernetes逐渐占据优势,YARN被边缘化。
15:35京东云平台总架构师、系统技术部负责人刘海锋带来了名为“大规模内存数据库JIMDB:从”的主题演讲。“Memory is the new disk”,JIMDB基于redis,以内存为中心的数据存储,其底层技术研发包括了存储引擎(Dict、LSM with RAM-SSD hybrid、B+Tree)、复制协议(async、sync等)、分片策略(Hash、Range)三个部分。过去两年,JIMDB一直持续建设,拥有着数千台大内存机器,多个数据中心,1000+线上集群,支撑了京东几乎所有的业务。
14:55普元信息技术股份有限公司CTO焦烈焱在《大数据时代的企业业务系统3.0》主题演讲中表示大数据上升为企业业务系统3.0 的核心要素。大数据的发展,促使了企业业务架构的变化。普元提出了Reactive架构风格的新一代架构。基于Reactive架构分布式的数据采集、基于Reactive架构分布式的数据处理、基于缺失数据的海量数据质量治理、动态脱敏与静态脱敏、大数据中的元数据技术是该架构的技术亮点。
14:25中国移动苏州研发中心总经理助理兼CTO孙少陵在“大数据热的冷思考”主题演讲中表示传统企业在大数据转型过程中,通常要经历BI升级为大数据平台、组织架构转型和内部数据整合、主动数据采集三个阶段,目前中国移动已完成第一阶段,第二阶段已开展,第三阶段已初露萌芽。
13:50Databricks公司联合创始人、Spark首席架构师辛湜带来主题为《Spark发展 :回顾2015,展望2016》的演讲,他介绍了Spark的目标是“Unified engine across data workloads and platforms”。在谈到Spark在2015年最大的改变时,他感觉应该是增加了DataFrames API。对于Spark的生态圈,他表示主要侧重三个不同的方向,一个是上层的应用,二是下层的环境,还有最重要的是连接到的数据源。
13:05中国工程院院士高文带来了名为“多媒体大数据分析与搜索”的主题演讲,深度剖析媒体大数据的存不下、看不清、找不到的三大技术挑战问题,以及解决方案,分别为:超高效视频编码解决压缩问题,在视频编码工具中引入场景模型,获取更好的编码效率;以面向对象检测、跟踪与识别解决模式识别问题,支持ROI、GPS和多摄像机关联;以大规模视觉搜索解决跨摄像头搜索问题,制订新视觉描述子标准来支持有效搜索。高文表示,当前,智能城市媒体大数据方面的研究才刚起步,个人大数据方面的研究将更具挑战性,我们需要在数据科学的各个方面进一步努力,协同创新。
11:30华为IT产品线大数据解决方案规划总监徐兴海在演讲中首先表示,大数据已从炒作走向企业应用,从试点走向生产,其主要表现在:初步完成历史数据大集中;半/非结构化开始采用;进入数仓、征信、风控等关键业务;新的独立组织,新的服务模式;开始重视数据分析师的培养。随后,他表示,未来大数据将全面与云融合,其主要需求在于:平台统一化,线上线下同构;引擎多样化,真正打通;地域分布化,逻辑与物理;能力服务化,与云结合。
紧跟在徐兴海之后的演讲者是华为电信软件大数据首席技术规划区波。针对华为大数据平台的未来发展,区波表示,华为希望将新技术和传统技术进行有效整合,并且这种整合能力可以在客户间快速地复制,其次,希望这种整合能力能够相对固化,使这些能力在不同的客户快速的复制,第三,华为希望这个平台上能够有一个相对完备的数据资产治理的平台,使得用户真正了解数据,用好数据。
11:00IBM副总裁、大中华区硬件系统部总经理郭仁声演讲的主题聚焦在未来的认知工作负载需要全新的IT基础架构,他首先介绍了认知时代的大数据平台和大 数据基础设施,而Watson就是认知时代的典型代表,他认为认知时代需要创 新的整合,对开源技术持续贡献,使IBM在Spark领域持续领先。随后,他介绍了认知时代的IBM分析解决方案并且演示了IBM的认知计算示例:创新Linux
on power结合FPGA的CIFAR-10图像归类测试。
10:15中国联通集团公司信息化与电子商务事业部副总经理、总架构师范济安在主题演讲中分享了中国联通将网络通讯数据应用于行业的探索经验,并提出了在大数据发展上面临的技术挑战,如开源版本的持续化问题;解决数据安全与数据开放的矛盾;大数据应用的多租户及大数据平台的多租户管理与运营等。
09:35阿里巴巴集团CTO王坚带来了题为“互联网、数据和计算”的主题演讲。王坚表示,数据是被沉淀下来的,而非存在价值限制性的收集。互联网、数据与计算相互依存,不在互联网上的数据基本价值甚微,数据天然存在,但只有被计算才能真正发挥价值。而当信息无法告知用户世界为何样时,数据能够完整地描绘出。所以,让互联网成为基础设施,数据变成生产资料,计算变成公共服务,是关于这个世界的创新和创造的平等与自由实现。
09:15启明星辰公司副总裁、CCF大数据专家委员会副秘书长潘柱廷发表了最新的“2016 年大数据技术发展趋势”,主要包括:可视化推动大数据平民化;多学科融合与数据科学的兴起;大数据安全与隐私令人忧虑;新热点融入大数据多样化处理模式;大数据提升社会治理和民生领域应用;《促进大数据发展行动纲要》驱动产业生态;深度分析推动大数据智能应用;数据权属与数据主权备受关注互联网、金融、健康保持热度,智慧城市、企业数据化、工业大数据是新增长点;开源、测评、大赛催生良性人才与技术生态。随后,更通过的趋势对比,指出了我国2016年大数据发展的最主要推动者将来自于大型互联网公司、政府机构和创业企业。
09:10美国俄亥俄州立大学计算机科学与工程系主任、 Robert M. Critchfield讲席教授张晓东进行大会主席致辞。他表示人类对探索物理和物质世界强大的需求,促使计算机性能迅猛发展,今天的大数据并不是对已有的物理和物质世界中间的延续,而是一个新的更大更猛的数字世界的降临,我们每个人都生活在一个充满数据的时代里面, 我们所有的行为贡献了这个数字世界。
09:05中科院计算所研究员、CCF大数据专家委员会秘书长程学旗致辞,他表示每年的中国大数据技术大会都做了相当充分的准备,一届大会结束后便立即进入了下一届大会的准备阶段。大数据技术火热发展,大数据技术大会也将秉承以技术与应用为风向标,致力打造大数据实战创意交流平台,并会一直坚持这一办会理念。
09:002015中国大数据技术大会全体大会盛大开幕,中国移动苏州研发中心总经理助理兼CTO孙少陵首先介绍大会及与会嘉宾。本届大会由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题,聚拢大数据落地后所面临的挑战。
08:552015中国大数据技术大会(BDTC 2015)在中国科学院计算技术研究所副研究员、CCF大数据专家委员会委员查礼的主持下开启。期间,他向每一位来宾表示了由衷的感谢。
18:00大会将于12月10日9:00正式开幕,敬请期待!
16:40出门问问高级系统架构师范超霏为大家分享主题是《打造手腕上的人工智能》,主要从智能硬件和人工智能两个方面进行具体介绍。他针对Ticloud人工智能服务中的语音识别、语音合成、语义分析、垂直搜索和智能推送分别做了深入的介绍与分析。
15:551号店推荐团队架构负责人陈兀带来题为《大型电商网站中的通用精准化推荐平台的搭建》的分享,主要从通用精准化推荐平台简介、通用精准化推荐平台设计和通用精准化推荐平台效果展示进行了深入分享。他认为在大型电商网站通用精准化推荐平台设计中,首先需要搭建一个推荐流程可视化系统及推荐结果可追溯系统,而这两个系统合并则称为通用精准化推荐平台。
15:10特赞CTO黄勇带来的主题是《微服务架构分享》,他主要从为什么需要微服务架构、微服务架构是什么、微服务特点、如何搭建微服务、微服务的框架和微服务架构应用案例六大方面对微服务进行了深度分析。期间,他还指出了部署效率太低、技术选型单一和系统资源浪费都是传统应用架构所面临的现实问题。
14:45大众点评交易平台技术团队负责人陈一方主要分享了高可用系统的设计和实践。演讲期间,他将高可用性系统设计演进总结为5个阶段:一个系统、模块化、垂直服务化、平台服务化和化整为零。他指出,高可用的架构很容易找到方案,但其中主要挑战是演进的节奏很难把握。
13:30当当网架构部总监史海峰带来了主题为《从概率和用户感知出发实现高可用架构》的分享。他表示影响高可用性的因素除了天灾(硬件故障、自然灾害等)和人祸(设计缺陷、资源不足、安全攻击、性能瓶颈等),可能还有未知的因素(灵异事件、黑天鹅效应)。同时,他指出高可用终极目标则是用户第一,并详细介绍了高可用架构设计的常用姿势,包括分层解耦、交易系统缓存、分区一致性、资源隔离重点保障、峰值情况保障等。
11:15腾讯手Q公众号后台负责人孙子荀带来了《新型架构案例与实践》的主题分享,主要以数据同步、任务分配、接口保护、集群检测和容量模型五大方面进行了深度分析。演讲中,针对40亿源数据,接口 1000/s的QPS副本和源的应用场景,他从如何保持实时性、如何路由、如何接口保护、分布式集群中如何找到链路最好的种子节点、如何评估容量模型和扩容的五大问题为切入点,进行了详细的分析,并提出了具体的解决方法。
10:30携程旅行网无线开发总监陈浩然分享了《携程下一代无线App架构设计》的主题演讲,主要是从App工程解耦和组件化架构、移动网络服务通道治理、优化和无线研发支持平台三个方面进行深度剖析。其中,针对携程的移动网络通道进行了详细介绍,包括Native服务网络请求、Hybrid服务网络请求、Push服务网络请求、IM服务网络请求、用户行为和性能日志上传网络请求等。同时,他对网络通道提出了一下五点治理思路:1.减少连接次数;2.避免DNS劫持和内容劫持;3.通过减少发送次数和压缩来减少流量;4.更安全和稳定;5.支持多数据中心多活的网络通道灵活调度。
9:45宅米CTO李智慧就业务规模、技术架构体系、技术团队组织这三大方向解析了宅米网的技术变迁。其中,他重点介绍了宅米网的技术架构经历的三次变迁:架构V1.0,遭遇了数据库负载压力大、请求响应速度慢和50w峰值订单的挑战;架构V2.0,遭遇了代码耦合严重、相同代码重复开发、订单表达到数据存储极限和200万峰值订单的挑战;架构V3. 0,经历了前两阶段的演进,在第三阶段宅米构建了大数据平台。
9:00蚂蚁金服支付清算平台架构师王俊带来了主题为《支付宝红包-双十一挑战与应对》的演讲。他介绍了支付宝在发行中所面临的业务挑战,包括海量容量、成本和资金安全三个方面,并深度剖析了红包在发放、展现/渲染、使用这三个典型阶段所遇到的技术难点,同时分享了其多年积累的丰富经验。
16:40七牛云技术总监陈超,一直专注于分布式计算与机器学习等领域,有非常丰富的分布式系统设计与实现的经验,在分布式数据库方面也有深入研究。本次分享主要介绍的是InfluxDB的原理与架构,并且会指出InfluxDB存在的“坑”。
15:55饿了么DBA经理虢国飞就一些中小型公司没有高大上的工具,如何才能做好数据库架构提出了探讨,并分享了饿了么在数据库架构方面的调整变化,以及每个阶段所面临的问题和应对策略;还有跨机房的数据搬迁和升级、数据库面临的瓶颈、数据库拆分的方案、迁移过程的灰度和回滚方案、数据校验等机制。
15:10作为今天数据库峰会的主持人,AdMaster技术副总裁兼总架构师卢亿雷为我们带来了《ElasticSearch分析与实践》的主题分享,主要从ElasticSearch特点及生态圈、Lucence原理、ElasticSearch架构和插件、ElasticSearch管理和监控工具、ElasticSearch应用案例、ELK实践这六大方面进行分享。
14:15阿里巴巴高级技术专家沈春辉带来了《高可用HBase的技术实践》,在本次演讲中主要分享阿里在保障HBase服务高可用方面的一些工作,包括MTTR、MTBF、冗余切换等角度的实践与软件改进,让大家深度的了解HBase。
13:30上海热璞网络科技有限公司CTO金官丁这次主要分享关于分布式数据库技术架构分类、企业为何需要分布式数据库、分布式数据库的技术架构演变、及分布式数据库技术架构的未来方向。首先详细介绍了分布式数据库技术架构的分类。并针对企业为何需要分布式数据库进行了深度的剖析,他认为,企业支撑有限、成本过高和依赖严重,都是造成企业需要分布式数据库的原因。
11:15华为数据库产品规划师,Postgres中国用户会发起人李元佳带来了《Postges-x2分布式数据库的介绍》 的主题分享,他首先分析了Postges-x2分布式数据库最新动态,以及Postgres的主要集群解决方案,并详细介绍了Postgres社区的发展历史及未来发展的场景。然后重点介绍了Postgres-x2的解决方案及其关键技术,并剖析了Postgres的设计理念。最后介绍Postgres目前的开发状况、应用案例以及今后发展的计划。
10:30UCloud联合创始人兼CTO莫显峰带来了《云端数据》的主题分享,首先他简单介绍了自己,毕业于2000年,之后一直从事软件研发和相关的管理工作,先后分别任职于东软、华为、腾讯,在2012年与几位合作伙伴共同创办了UCloud。他说:“每一步的发展对于我个人而言都是一个新的挑战,不断在挑战中学习和成长,每一个阶段的成果都是激励我继续前行的动力。”他详细的介绍了云存储产品的各个组件数据库UDB、缓存/KV持久化UMEM、对象存储Ufile、数据方舟UDataArk、冷存储、分布式文件系统、分布式数据库的特点;并深度的介绍了云端数据架构的倾向问题和对一些云的基本理念进行了剖析。
09:45阿里云数据库技术组数据库专家彭立勋详细介绍了阿里云RDS for MySQL的若干优化,并介绍了阿里云MySQL源码团队对MySQL的各方面改进,包括安全特性的增强,对压缩特性的优化,执行效率的优化,以及对协议的改进。在演讲中彭立勋老师分享了对MySQL逻辑复制可靠性的改进,为我们深度解析异步复制/SemiSync存在哪些问题,并且如何对其进行攻破。同时还为我们解释了两种通道的特点,并提出了一系列的问题及解决方法。
09:00nice服务端架构师高峰带来《Redis的改造与实践》主题演讲。高峰表示,Redis更适合Cache的场景,Redis做为持久化存储通常是性价比较低的选择,在持久化的应用中,Redis更适合要求低延迟、高并发的场景。他针对Redis数据迁移进行了深度剖析,并分析了Redis所遗留下来的一系列问题。最后,高峰还为我们分享了他在Redis的实践,他表示要正确的对待Redis单进程的特性,首先要避免大value、元素过多的value和过于耗时的操作出现;其次就是BGSAVE等需要fork进程的操作,可能会导致Redis卡顿。
09:00数据库实战论坛在AdMaster技术副总裁兼总架构师,大数据资深专家卢亿雷的主持下正式开始。卢亿雷老师表示:这场数据库峰会干货实料丰富,让参与者听完后会受益良多。
17:10【云计算安全与可信计算论坛】武汉大学计算机学院教授,博士生导师张焕国和中国电子学会云计算专委会委员,英特尔中国研发中心数据中心企业部首席系统软件构架师李彦共同分享了一个主题《端到端可信云解决方案》。张焕国表示:云计算也存在如设备、数据、内容和行文的共性安全,也有如资源的共享所引发的个性安全。目前可信计算已经取得了系列规范、产业化等成绩,如公布了3个可信计算技术标准;TCG公布了TPM2.0和TSS2.0新规范,并将陆续发布其它规范;微软发布了WIN-8,全面支持可信计算等。在端到端方面,要实现可信云基础设施、可信云平台、可信云终端、可信云系统、可信云服务,需要多方共建中国可信社区。李彦重点介绍了英特尔可信执行技术(TXT)、可信计算池 (TCP)、开源远程认证 (OAT),如何帮助更多企业实现安全和身份保护。
17:00【云计算大数据智能交通行业应用论坛】宝船网2.0产品总监杜忠平在题为《宝船网2.0建设航运大生态实践》的演讲中,首先介绍了船务业态转型升级过程,从商业技术和用户角度介绍了宝船网2.0的特点:深入的业务研究,全新的技术构架,更贴近用户的设计实现,互联网+商业模式的探索。随后,他介绍了宝船网2.0在港口服务、内河航运、物流服务、人员四个领域的服务,他还介绍了宝船网导航的核心产品S-GIS,以及宝船网2.0云生态和航运大数据基础架构。他表示,一个机遇大航运市场的生态系统,可以提供一个开发、透明和诚信的环境,并让创新在这个生态里变成更简单、更容易发生。
16:30【云计算安全与可信计算论坛】CSA大中华主席、华为首席网络安全专家李雨航发表《云计算2.0时代的网络空间安全》主题演讲。云计算已从第一代的传统数据中心、虚拟机等进化到第二代的绿色数据中心、容器、Spark、IoT设备等,网络安全顶层框架包括国际战略、国家法律、行业标准、管理流程、技术工具、人才培育六大维度,各维度都需要国际、跨界、跨机构、跨部门合作。针对云计算中的软件定义边界、量子安全、物联网安全以及移动应用安全漏洞检测,云安全联盟分别推出CSA SDP、CSA Quantum Safe、IoT Security Controls和CSA MAST服务。
16:10【云计算大数据智能交通行业应用论坛】深圳市综合交通指挥中心总工程师关志超带来了主题为《新一代信息技术时代城市交通监测、建模、仿真、评价体系》的演讲。他介绍了深圳城市交通云计算实践,包括深圳城市综合交通信息中心和深圳城市未来交通重点实验室等。随后,他介绍了深圳市城市交通运行监测与模型体系,他表示,建立区域、宏观、中观、微观一体化的多层次交通模型体系,可以形成全市统一的交通模型平台,满足不同层面与类别的交通决策支持需求。最后,他介绍了深圳市城市交通宏观、中观、微观、在线智能仿真环境与影响评价。
16:05【“互联网+”金融论坛】北京安理律师事务所高级合伙人王新锐的主题演讲名称是《金融大数据的实践和合规性问题》,他对征信、风控、营销、催收几个方面的金融大数据业务实践行为进行详细剖析,并从法律法规方面对企业大数据实践进行了详细指导。
15:45【云计算安全与可信计算论坛】中国电信股份有限公司云计算分公司产品部副总经理郑少斌在题为《可信,源自中国电信》的演讲中着重分享了中国电信在安全方面的实践。中国电信拥有15个 五星级及90个四星级数据中心,已形成“4+2”云数据中心,更多建设中的云数据中心;计算能力百万物理核;存储可达EB级别;机房出口带宽超过10TB。无论是党政军、大型企业、中小企业 还是内部使用,企业对安全有着极高的安全要求。
15:35【“互联网+”金融论坛】网贷之家创始人&盈灿集团董事长兼总裁徐红伟带来名为《云征信——打造P2P网贷行业生态圈》的专题演讲。演讲期间,他为来宾分享了P2P网贷行业征信现状:P2P网贷行业由三部分核心参与者构成,投资者、平台和借款人,P2P借款人质量直接决定了投资人的投资意愿和平台的存亡,寻找优质的借款人因而成了整个P2P网贷行业中最核心的突破口;前P2P网贷行业在我国急速发展,我国已经成为世界上最大的P2P网贷市场,但由于我国征信产业发展相对滞后,我国P2P网贷行业发展目前因而遭遇瓶颈;在央行的征信系统中,真正和银行有信贷关系的只有3亿人,占比不足25%,且P2P平台目前未能纳入央行征信系统中,全国大大小小的征信公司很多,却没有一家能够针对P2P网贷提供一份很完整的征信报告。
15:30【云计算安全与可信计算论坛】安全狗CEO 陈奋在主题为《用云服务模式解决中小企业安全痛点》的演讲中表示,当前中小企业面临配置风险、外部攻击严重等非常严峻的安全现状,90%的中小企业缺乏系统化的安全规划,在安全方面的投入与整体IT投入占比不到3%。针对系统安全基线、网络安全防护、系统安全保护(防黑防入侵)、身份认证、
跨混合云以及多个公有云管理等几种典型的云安全服务场景,安全狗分别提出了几种解决方案,包括:制作安全的镜像模板、安全产商提供的镜像模板、安全社区的力量-Store模式、云计算厂商网络基础设施、基于主机HOST层面、基于VPC(虚拟私有云)等。
15:25【云计算核心技术架构论坛】云雀科技创始人兼CEO左玥为我们解密Windows Container技术的历史、现状、未来和应用。左玥首先介绍了Windows和Linux设计商的区别,然后着重介绍了Drawbridge容器技术,并将之与Docker进行对比,首先Docker和Kernel是共享的,Drowbridge是不能共享的,Docker的启动时间相对快得多,Drowbridge相对比较慢。Docker的Image不支持多集成(如Apache+MySQL),但Drawbridge可以。因为Drawbridge实现了45个API,可以做一些Docker干不了的事情,比如支持Snapshot,可以做High availability,还有Secure enclave(SGX)-R/G。最新研发的Drawbridge 2.0,已经应用于Azure Machine Learning之中。
15:20【云计算平台构建与实践论坛】中国大数据专家委员会委员,上海晟淘大数据科技有限公司总经理丁陈在主题为《大数据智能IT工具平台》的演讲中首先例举了大数据库市场存在的诸多问题,(1)传承——不支持ACID,大数据永远只能“打边鼓”;(2)性能——大数据不只“大”,更要“快”。高性能、实时大数据才是未来大数据之道;(3)易用——大数据给我们带来的不仅仅是 “big value”,更重要的是人人都会用的大数据。
15:18【云计算大数据智能交通行业应用论坛】同济大学教授杨东援在题为《大数据时代城市交通的思考·分析·决策》的演讲中表示,对于城市交通来说,大数据不是一种时髦,而是技术推动、需求拉动和任务理念变革所共同呼唤的创新,而面对城市交通领域大数据技术应用问题,需要政府提高预见性,树立正确的价值理念,增强把脉诊断能力。期间,他还表示城市交通领域的大数据技术应用,既非将大数据技术塞入传统技术框架,也非对关联分析等技术的简单套用。最后,他介绍了大数据环境下基于证据的决策分析技术框架,其主要目标是提升有机融合城市交通战略、政策、规划、建设、管理和控制等技术环节的战略调控过程的决策效果。
15:15【“互联网+”金融论坛】宜信大数据创新中心研发总监谷文栋的演讲主题是《博以致用,拓则新生——宜信大数据金融云》。他认为推荐系统是大数据特别典型的应用。之后,他提出“互联网+”金融承载的连接作用是平的,可以和任何垂直领域产生关系,金融一直也是平台类的产品,各行各业都离不开金融,这种平台性的东西在开始和逐渐垂直领域产生化学反映的时候会释放出巨大的价值。所以,他认为互联网金融的发展趋势是:服务化、场景化、云+端。最后,他提到宜信采用宜信、商户、合作伙伴三位一体的金融服务体系。
15:10【云计算安全与可信计算论坛】曾在各互联网公司做安全工作而后创业的青藤云安全创始人&CEO张福对安全的理解很深刻。在题为《面向未来的自适应安全架构》的演讲中,分享了一个真实的企业安全故事:知名游戏遭到黑客攻击,最终7人联合小组用了2个月的时间通过各类技术手段才发现10%服务器被感染。他认为:安全环境非常严峻,安全已远远落后云计算的发展,无力应对业务需求剧烈变化,更无力面对专业攻击者,企业安全陷入困境。所以企业更加需要:适用于各种基础架构、易于部署、快速响应、容易使用、实时发现未知威胁、持续监控包含、保护核心资产、人员依赖低的云安全服务。
15:00【云计算平台构建与实践论坛】杭州又拍云CTO黄慧攀发表了题为《什么是云加速》的演讲。他首先介绍了到底什么是云加速,他认为其本质还是网络加速,之后,他还分享了UPYUN云计算的系统架构。虽然云加速会带来硬件成本、系统开发以及网络运营方面的代价,但是云加速所带来的价值也是显而易见的,他认为主要有两点,第一是服务标准化、透明化、公平;第二是服务质量一致,优化周期短,而作为新一代CDN加速服务的UPYUN重新定义了云加速。
14:55【云计算核心技术架构论坛(二)】DaoCloud联合创始人兼CEO陈齐彦在主题为《容器如何帮助企业转型互联网 架构》的演讲中提到,在容器出现之前,软件开发被团队少协作、运维难追溯、质量不可控、集成不持续、集群难伸缩、交付缺统一等痛点所困扰。容器的出现,使得软件开发过程有了新的理念,即:精益工程(方法论)、移动(应用)、Git Flow(协作)、微服务(架构)、云平台(平台)、容器(发布)。他还介绍说,DaoCloud目前提供的产品和解决方案有两个,一个是DaoCloud 应?用管理平台(www.daocloud.io),它是云端原生应用的一站式解决方案;另一个是DaoStack企业服务,它是企业级Docker服务,包括私有云、混合云。
14:52 【云计算大数据智能交通行业应用论坛】滴滴快的打车技术副总裁,大数据与商业化事业部总经理朱磊发表了题为《行在“云端”——大数据时代的智能生活》的主题演讲。他介绍了大数据、产品、商业和运营相关联的应用案例。此外,朱磊分享了打车订单的智能化匹配,从人、物、信息、服务四个角度介绍了智能出行的本质,以及用户流失监控预警系统和运营策略分析。最后,他从业务和工程两个方面介绍了滴滴打车的大数据架构。
14:50【云计算平台构建与实践论坛】中国电信股份有限公司云计算分公司技术总监广小明发表了题为《中国电信云计算领域探索与实践》的演讲,他表示中国电信已经组建了南北两大云数据中心,构建覆盖全国8大区域,2大云基地,2大隔离区,共计17个资源池节点(不含隔离区和两个基地),并且分享了天翼云南北双活存储池案例以及混合云应用案例,同时,他还重点介绍了天翼混合云的五大应用场景包括容灾、已有应用弹性伸缩、研发测试、移动APP和虚拟桌面。最后他还介绍了天翼混合云的核心技术指标,
14:45【“互联网+”金融论坛】蚂蚁金服金融云解决方案经理王磊分享了《云计算赋能互联网+金融》。他认为金融云的广泛运用是符合整个金融行业趋势的,特别是互联网+金融的必然产物。他提到,金融云产生的背景是:金融IT应用自主可控技术已上升为国家战略;互联网金融随时在线、小额频发等特性对传统IT系统带来巨大挑战;更多新型中小金融机构出现,迫切需要专业化、社会化资源支持。他认为虽然“互联网+”特质是来自于“互联网+”业务的特性,但是对于金融来说,稳健、安全也是非常重要的。
14:40【云计算安全与可信计算论坛】360云事业部产品总监 张晓兵发表《云安全技术架构分享》主题演讲。2014年国内新增恶意样本3.2亿、钓鱼网站262万、Android病毒326万,65.5%网站存在漏洞,互联网公司公开的安全事故已导致11.3亿用户信息泄露。为此,360提出了“数据驱动安全”理念,以QVM人工智能引擎,基于海量数据挖掘、引入机器智能学习算法,准确识别未知恶意软件。并通过大数据关联技术,以多种图形展现的方式,帮助安全专家对未知威胁进行分析、发现、回溯、跟踪及预警。此外,更提供多租户隔离、集群与公司业务隔离、高防DNS服务、具有五网分发能力的安全CDN服务、防DDoS攻击等构建安全云环境,以及自主研发的鹰眼系统,进行实时扫描防护。
14:30【“互联网+”金融论坛】中国大数据专家委员会委员、中国电子学会云计算专家委员会委员、九一金融信息服务(北京)有限公司创始人兼CEO许泽玮分享了《基于大数据的互联网金融创新》。他认为在整个传统金融里存在三个不对称:信息不对称、知识不对称、服务不对称,并且这三个不对称都可以靠技术解决。基于此,他提出:本质来说互联网金融就是把信息流和资金流融合在一起。他认为数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。之后,他提出互联网金融行业数据交易三个原则:双方主动提交交易数据;平台功能要把产品提炼的足够简单;平台运营数据的效率及变现能力。
14:25【云计算大数据智能交通行业应用论坛】上海北斗卫星导航平台有限公司副总经理、总工程师朱峰发表了题为《北斗高精度导航与智能交通》的主题演讲。首先介绍了北斗及其相关方面的发展情况,他分享了北斗高精度导航及其服务云,他认为,以北斗高精度定位切入市场(包括切入到智能交通领域),用高精度带动应用创新,将推动北斗产业的发展,随后,他介绍了北斗在智能交通领域的一些应用方向,并表示车道级应用将成为北斗高精度在智慧交通领域的引爆点,推动智慧交通的应用创新,最后他介绍了北斗高精度导航面临的技术挑战:高精度定位、地图(高精度车道级)、可用性、高动态、低成本(定位终端)。
14:20【云计算核心技术架构论坛】足记副总裁兼CTO孙东风介绍足记如何基于云平台架构千万级移动应用。基于图片社交的移动互联网应用,注册用户将近3000W,DAU百万级别,日新增用户30~40%。足记传统的MySQL+PHP的架构遇到的问题包括数据瓶颈、性能瓶颈和水平扩展瓶颈等,例如,1.巨量数据,必须分库分表;2.通过SOA水平扩展Service集群;3.组成三级缓存,MySQL降级为持久化工具。通过公有云服务的应用,足记实现了1.动态易扩展,按需服务,前期节省成本,后期扩容快速;2.完善的监控系统和运维后台;3.专业的数据存储支持。
14:18【云计算平台构建与实践论坛】英特尔中国上海分公司大数据软件工程师罗钟悦紧接着阮兴平的演讲,从技术角度介绍了英特尔整机构是如何与OpenStack结合的。主要包括两大步骤,(1)RSA在OpenStack里进行呈现;(2)利用RSA的能务来扩展OpenStack的功能。
14:12【云计算平台构建与实践论坛】英特尔数据中心云平台事业部整机柜架构方案市场技术经理阮兴平发表了题为《英特尔整机柜架构:针对软件定义基础架构优化的云架构方案》,他表示随着云技术的发展,构建数据中心的要求变得越来越标准,交付更弹性,部署更灵活。英特尔整机柜方案是一个针对计算资源、网络资源和存储资源实现解耦及按需重组的逻辑架构方案。这个方案用于重新定义当今数据中心云架构从而实现云服务的高效部署,最后他还分享了采用OpenStack Ironic和英特尔整机柜架构方案相结合而实现软件定义基础设施架构的案例。
14:10【云计算平台构建与实践论坛】HYPER创始人&CTO王旭在演讲中表示,目前正处Docker热潮,Docker究竟是什么?Docker=Container(LXC)+Layered Image(aufs),LXC和aufs两者都不是新东西,而结合后却产生了很大的效应,原由在于Docker的核心是以应用为中心,大大简化了整体发布流程,降低了运维难度。Docker对应用进行了封装,使操作系统回归本原
,应用与操作系统完全解耦,是运维领域的一大革命。同时他表示虚拟机的问题在于没有做到“应用为中心”,而Hyper的正是应用中心的虚拟化,最后他还介绍了Hyper的本质,以及在已经有容器的情况下,为什么还要虚机,并将Hyper和容器进行了对比。
14:05【云计算安全与可信计算论坛】微软公司可信赖计算部安全技术政策总监陈恺在题为《构建可信赖的云计算平台》的演讲中,特别提到IT技术,如移动、应用、大数据、云计算等发展带来了安 全方面的巨大挑战和机遇。尤其在信任方面,“如何保护数据,谁能访问数据,数据在哪里,如何证明你所承诺的”一直是用户所关注的。为此,微软提供了可信(核心安全、隐私保护、合 规及可靠性承诺),开放和灵活(跨平台一致体验、随时随地处理所有数据、可扩展的应用开发、灵活的基础设施)的安全服务。正如在Azure平台上,企业可以自由选择Linux系统一样。微软在网络安全方面的承诺是:开发、提供安全的产品和服务;保护客户的数据安全及隐私性;协助客户及合作伙伴保护他们的资产;协助打击网络犯罪。技术方面,微软在数据加密方面,会通过“客户与业务之间传输的数据,数据中心之间传输的数据,存储的数据,用户之间端到端的数据保护”来实现全面保护。微软在安全方面有全套的安全保障体系。
14:00【云计算核心技术架构论坛(二)】北京云杉世纪网络科技有限公司CEO亓亚烜在主题为《SDN在云计算数据中 心的应用》的演讲中提到,SDN简化了网络管理,为应用提供支撑。在互联方面,SDN是演进,而不是变革,因为不必迁移 、自由扩展、随时可退,云杉通过OF/OF/VXLAN实现,比如ARISTA、Centec等;在服务方面,SDN是开放的,而不是封闭的 ,使用开源技术、集成第三方资源并保证品质,云杉通过NFV实现,比如Array、NSFOCUS等;在安全方面,SDN变被动防御 为主动防御,需要经过数据采集、分析和执行。
13:55【“互联网+”金融论坛】互联网金融千人会秘书长、联合创始人闻学臣分享了名为《互联网金融趋势报告和分析》的主题演讲。期间,他分析了“互联网+”金融的背景以及对于“互联网+”金融未来趋势的判断和看法。他认为整个金融行业现在面临三大方面的命题:经济下行、制度变革、技术创新。他分享了两种未来代表行业发展趋势的业态:互联网证券和互联网保险。对于互联网保险,他认为互联网和保险叠加之后能带来新的效果:互联网将给保险业带来全新的蓝海市场;产品定价越来越精准化;新的商业模式出现。对于互联网金融的发展趋势,他总结为:高速发展、创新融合、整合重构。
13:50【云计算大数据智能交通行业应用论坛】中国电子学会云计算专家委员会名誉主任委员,中国大数据专家委员会顾问,中国工程院院士李德毅发表了《对智能驾驶的再认识》的主题开场演讲。李院士表示架构设计、模块划分和界面约定决定智能车产业的核心竞争力。随后,他分享了架构设计四大原则:系统、模块、表现和快乐编程原则,详细介绍了机器视觉如何形式化驾驶员的视觉,他表示,机器视觉远不是对人的全部视觉的感知能力的全方位模拟。最后,他分享了智能车传感器如何选型和配置和机器视觉。
13:40【云计算安全与可信计算论坛】北京中油瑞飞信息技术有限公司信息安全高级技术总监黄晟发表《企业私有云安全防护实践与探索》主题演讲。现有企业信息系统对基础设施的使用模式决定了现阶段企业私有云将会采用IaaS为主、PaaS为辅的模式。而随着攻击逐渐上移至应用层并变得更复杂,传统的单一边界防护机制很难保证安全。
从AWS元数据渗透测试与全栈攻击等实际案例可以看出,云计算技术改变了一切,但云计算平台本身就是一个复杂的信息系统,特别是虚拟化管理与云管理系统采用通用软件和现有技术开发,最终也部署在传统硬件平台之上,依然受到传统软硬件技术生态圈的影响。因此传统攻击手段依然具有威胁性,还是需要依靠传统防护手段作为私有云安全防护的基础。
13:40【云计算核心技术架构论坛】苏宁云商OpenStack研发中心总监张小斌分享《基于OpenStack的大型电商私有云之路》。从2014年5月开始,苏宁电商私有云把几千的物理和KVM虚拟机改造成OpenStack私有云,经过了单控制节点的OpenStack生产集群部署到多数据中心、多Region、高可用生产集群部署的转变,现在有4个Regions,包括内网和DMZ的多个可用域,多主机集合(集群),专用资源池,计算与存储密集型主机资源池等。
13:36【“互联网+”金融论坛】中国云计算技术与产业联盟副理事长、中国大数据专家委员会副主任委员、中国电子学会副理事长刘汝林发表了开场致辞。他强调了云计算的本质就是服务,应该把以前传统的提供产品、软件的观念转向提供服务。金融也是提供服务的,在“互联网+”的大旗下,金融这块提出来很有必要。金融既关系到国计民生的重大事项,也关系到老百姓的切身利益,同时也是云计算里面经常提到一个安全问题。他认为“互联网+”金融有很多改革的东西,有广阔的天地。
13:346月5日下午,第七届中国云计算大会云计算大数据智能交通行业应用论坛在中国智能交通协会常务理事、副秘书长、国家智能交通产业技术创新战略联盟理事长关积珍的主持下正式开启。
13:32【云计算安全与可信计算论坛】《云计算安全与可信计算论坛》在炼石网络CipherGateway CEO白小勇的主持下正式开启。
13:32【云计算平台与构建论坛】中国大数据专家委员会副主任委员,中国电子学会云计算专家委员会副主任委员黄晓庆作为论坛主席发表致辞。
13:30云计算核心技术架构论坛(二)正式启动,将有5位嘉宾分享OpenStack、容器、SDN等热门技术。论坛由中国电子学会云计算专家委员会委员、北京航空航天大学计算机学院教授钱德沛主持。
13:30【云计算平台构建与实践论坛】6月5日的云计算平台构建与实践论坛在中国电子学会云计算专家委员会委员,中国科学院云计算产业技术创新与育成中心主任、广东电子工业研究院院长季统凯的主持下正式开始。
13:30“互联网+” 金融论坛在九一金融联合创始人吴文雄的主持下正式开启。吴文雄指出,当下,传统行业已经深受互联网思维的影响,而在互联网高度契合的金融行业内,云计算和大数据成为一种新的趋势。
11:30中国大数据专家委员会顾问、中国电子学会云计算专家委员会副主任委员、中国工程院院士李伯虎表示,制造业正面临全球新技术革命和产业变革的挑战:新一代信息通信技术快速发展并与制造业的深度融合,正引发制造业发展理念、制造模式、制造手段、技术体系、和价值链重大变革;中国制造业大而不强,正面临从价值链的低端向中高端,从制造大国向制造强国、从中国制造向中国创造转变的关键历史时期;国际制造业发展态势和竞争格局面临重大调整;我国经济发展和国家安全对制造业发展提出了更高要求。演讲中,李伯虎院士还针对更个挑战提出了相应对策。
11:00CSA云安全联盟创始人兼CEO Jim Reavis发表了题为《Cloud Today, Cloud
Tomorrow》的演讲,他首先介绍了CSA以及其对于云计算健康发展的重要性,他表示 CSA目前已经有64000个会员、300个企业会员、75个分支。之后,他还介绍了目前领袖级的企业正在利用云做的事情包括:云安全代理、运维、容器技术(Docker、 Rocket)、安全分析、整合物联网、创造本地云安全战略等。因此在谈到未来CSA面临的挑战时,他表示CSA未来将致力于让云的安全超过其他任何IT系统。这需要CSA制定一些标准提供一些认证,他认为安全应该作为一种服务来提供。最后他介绍了 SDP虚拟私有云和物联网的用例。
10:30北京三未信安科技发展有限公司创始人兼CEO张岳公表示,基于云资源的共享集约化思想,云安全隐患主要来自:传统边界安全防护思想失效,封、堵、查、杀防不胜防,虚拟环境下认证授权、访问控制更加困难,云中管理员拥有更大的权限。针对这种现象,张岳公认为密码技术在云安全保障上更有优势:密码技术是有系统理论基础的技术;密码技术是主动的安全技术,在认证、授权、控制和数据保护上有优势;密码技术和数据的处理紧密结合,符合纵深保护策略。而在密码技术实现中,硬件无疑更有优势。
10:00中南大学教授、“千人计划”专家陈建二在主题演讲中从多方面分享了透明计算在今年的发展变化。透明计算是一种新的计算模式。它与云计算、虚拟桌面等不同,强调把软件放到服务器端,计算在客户端,流式执行实现跨平台和小终端。云计算解决数据云化问题,而透明计算解决软件云化问题。透明计算的主要特点有:跨软硬件平台;安全性问题;使用方便和便于维护管理;小终端和各种仪器设备运行不同大软件;低成本和环保。其核心关键点包括HTML5。实现跨平台;透明(云)架构,实现服务可控、可信、环保;Meta OS,具有安全、跨平台特性。透明计算对网络安全有三重保证,(1)Meta OS的主动防护性;(2)流式执行对病毒的防护;(3)数据码流监控与可管理性。
9:30Adgetec公司CEO、畅销书作者Mark Mueller-Eberstein教授发表题为《云计算大数据推动业务创新发展》的演讲,介绍如何有效利用云计算、大数据和物联网技术带来的机会,使之在快速变化的世界能成为我们的“商业加速器”。Mark Mueller-Eberstein表示,成为新世界的赢家,降低成本已经不是重要的问题,更加创新、更加以客户为中心、更加灵活地满足客户的需求才是关键,而IT的成熟度是企业成功关键的指标。云计算、移动、大数据、物联网、超级APP、智慧城市、3D打印等技术趋势给我们带来了很多新机遇,我们应当利用云计算的无限计算能力,以及大数据蕴含的价值。
9:00希捷科技高级存储部首席技术官James Hughes(裘剑一)发表了题为《云存储的未来》的演讲,他首先介绍了ASTC(先进存储技术联盟)技术的发展路线图。他预测2017年开始,机械硬盘的存储密度将保持30%的年复合增长率,最终在2025年左右达到每平方英寸10Tb,由此促成100TB硬盘的实现。之后他介绍了对象存储以及从2001年到2013年13之间对象存储初创公司的融资情况,都是逐步增加的,当然希捷也看到这种趋势。这也是希捷在这个领域发力的原因。最后他总结道,未来的存储需求将会持续增加,开源软件包括Swift、CEPH、Riak等以及软件定义存储最终将降低成本开支,存储API将让开发变得更为简单。
8:35中国电子学会云计算专家委员会副主任委员、中国大数据专家委员会副主任委员、国家自然基金委副主任、中国工程院院士高文在题为《城市多媒体大数据高效存储与处理技术》的演讲中表示:最新的图灵奖获奖人是Dr. Michael Stonebraker,数据库领域非常著名的专家之一,这也证明了大数据技术对产业而言非常重要。智能城市作为大数据实践很有代表性。首先,智能城市是一个复杂信息生态系统,;其次,智能城市的基础,是城市大数据传感网络和大数据中心;第三,智能城市成功的前提,是政府决策的主要依据来自大数据中心。
8:30第七届中国云计算大会第三日全体会议在中国大数据专家委员会副主任委员、中国电子学会云计算专家委员会副主任委员黄晓庆的主持下正式开始。
8:25第七届中国云计算大会的第三天:上午全体大会之后,是云计算核心技术架构(二)、云计算平台构建与实践(二)、云计算安全与可信计算、“互联网+”金融、云计算大数据智能交通行业应用”等5大专题论坛。
新浪微博 (#SDCC 2016#)
3月18日 数据库核心技术与应用实战峰会时间议题嘉宾09:00-09:45Redis的改造与实践高 峰&&nice服务端架构师09:45-10:30阿里云RDS for MySQL的若干优化彭立勋&&阿里云数据库技术组数据库专家10:30-11:15云端数据莫显峰 &UCloud联合创始人兼CTO11:15-12:00Postges-x2分布式数据库的介绍李元佳&&在华为担任数据库方面的产品规划12:10-13:30午餐13:30-14:15分布式数据库技术架构的演变与发展方向金官丁&&上海热璞网络科技有限公司CTO14:15-15:00高可用HBase的技术实践沈春辉&&&阿里巴巴高级技术专家15:00-15:10休息15:10-15:55ElasticSearch分析与实践卢亿雷&&AdMaster技术副总裁兼总架构师15:55-16:40饿了么数据库架构变迁虢国飞&&饿了么DBA经理16:40-17:25InfluxDB的架构演进陈 超&&七牛云技术总监3月19日 互联网应用架构实战峰会时间议题嘉宾09:00-09:45支付宝红包-双十一挑战与应对王 俊&&蚂蚁金服支付清算平台架构师09:45-10:30宅米网技术架构变迁与实践李智慧&&宅米CTO10:30-11:15携程下一代无线App架构设计陈浩然&&携程旅行网无线开发总监11:15-12:00新型架构实践与应用孙子荀&&腾讯手Q公众号后台负责人12:10-13:30午餐13:30-14:15从概率和用户感知出发实现高可用架构史海峰&&当当网架构部总监14:15-15:00高可用系统在点评的实践与经验陈一方&&大众点评交易平台技术团队负责人15:00-15:10休息15:10-15:55微服务架构设计与实践黄 勇&&特赞CTO15:55-16:40大型电商网站中的通用精准化推荐平台的搭建陈 兀&&1号店担任推荐团队架构负责人16:40-17:25从0到1,手腕上的人工智能范超霏&&出门问问高级系统架构师

我要回帖

更多关于 高大上的图片 的文章

 

随机推荐