重磅|腾讯大数据公布开源第三代高性能盘算平台Angel

[复制链接]
查看410 | 回复0 | 2038-1-19 11:14:07 | 显示全部楼层 |阅读模式

雷锋网招人了!
参加雷锋网,分享AI期间的信息红利,与智能将来偕行。听说牛人都点了这里


雷锋网按:昨天,腾讯大数据技能峰会暨KDD China技能峰会上在深圳召开,腾讯数据平台部总司理,首席数据专家蒋杰做了腾讯大数据平台Angel即将全面开源的陈诉,雷锋网现场摘编如下。


●聽●聽



得到Sort benchmark4冠军背后


各人好,许多人已经知道腾讯得到了本年的Sort benchmark的排序的4项冠军,许多朋侪来问我,腾讯是怎么做到的,背后支持的毕竟是什么样的技能?本日,我借这个时机,跟大伙来讲讲背后的一些故事。


信赖许多人看过昨们在许多都会机场投放的这个广告,这个广告内里画的是一个竞走的选手,排序角逐,就跟奥运会的百米竞走一样,都要很快。但我想说的是,实在昨们更像一个长跑选手,昨们在赛马拉松,这场马拉松,昨们跑了7年。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


回首已往几年的角逐的结果,几年前冠军都是被美国企业把持的,近来三年则是BAT拿了冠军。应该说,这几年,国内互联网的发展速率不比美国慢,与此同时,以BAT为代表的国内互联网企业的盘算本领也不落伍于美国。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


已往几年,得到冠军的团队,用的根本上都是Hadoop和Spark,实在腾讯的大数据平台,也是始于Hadoop的。昨们之以是能得到四项的冠军,是昨们履历了几年的打磨,寻求极致,昨们盼望最大限度地压榨呆板的性能。



  • 起首,从本钱的角度,只有把硬件压榨到极致,本钱才会低。昨们接纳的是OpenPower架构的呆板,按节点数盘算,昨们规模只有客岁冠军的六份一,按照本年的硬件代价,昨们总的TCO本钱远低于客岁冠军。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel



  • 在调理层面,昨们对调理算法做了深度优化,使得每台呆板的CPU、内存、网络、磁盘IO等每个环节都能发挥到极致。本次角逐的此中两项为MinuteSort,比拼的就是一分钟内的排序数据量,这个时间调理的服从就变得非常紧张,而这两项角逐昨们比客岁提拔了5倍,是提拔幅度最高的;这也从另一个方面说明白昨们在调理服从上的领先性。总结为一句话,就是最大限度地压榨了硬件的性能,才让昨们取得这个结果。



  • 现在昨们用于角逐的这个集群,已经在昨们的现网中用起来了,在高性能盘算、图盘算、深度学习等范畴支持腾讯的现网应用。


●聽●聽



7年里三代平台


回首昨们走过的7年,昨们是2009年1月开始基于Hadoop来开辟昨们的大数据平台,七年的征程,昨们历经了3代平台的发展。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel

  • 2009-2011年是昨们的第一代平台,昨们的第一代平台,只支持批量盘算的场景,重要就是报表,这个过程,昨们重点发展了平台的可扩展性,昨们不停增大集群的规模,从09年的几十台,发展到如今总规模靠近3万台。总结成几个字,第一代就是规模化。


  • 第二代,用三个字总结就是及时化。这是2012年到2014年。重要支持在线分析和及时盘算的场景,好比及时报表,及时查询、及时监控等。


  • 第三代是客岁到如今,重要建立呆板学习平台,支持腾讯各业务数据发掘的需求。这是从数据分析到数据发掘的变化,三个字总结就是“智能化“。


●聽●聽



第一代


第一代是离线盘算的架构,是基于Hadoop开辟的, 昨们起名叫TDW,腾讯分布式数据堆栈的意思。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


社区的Hadoop迭代慢,单一集群规模小,稳固性和易用性都很差,不能到达腾讯的要求,因此昨们按腾讯的业务运营尺度,做了深度定制开辟,昨们偏重发展集群的规模,办理Master单点瓶颈不能扩展的题目,昨们优化了调理计谋来进步Job的并发性,也增强HA容灾建立,另有很关键的一点的是,昨们丰富了Hadoop的周边生态,建立了配套的工具和产物来低落用户的利用门槛,语法上,昨们兼容Oracle的语法,方便腾讯各产物部分做步伐的迁徙,Hadoop大数据的性能很强,但是小数据分析的服从很差,昨们就集成了PostgreSQL来提拔小数据的分析性能,买通Hadoop和PG的访问边界。


就如许,昨们从最开始的几十台、到几百台、到几千台,几年以后,在2013年单一集群到达4400台,2014年单一集群突破8800台,处于业界领先的程度。现在昨们的总规模靠近3万台。


TDW的建成,办理了昨们内部三大业务痛点。


第一,它使昨们具备了T/P级的数据处置惩罚本领,几十亿、百亿级的数据量,根本上30分钟就能算出来。


第二,它的本钱很低,昨们可以利用很平凡的PC Server,就能到达从前小型机一样的结果;


第三,容灾方面,原来只要有呆板宕机,业务的数据肯定就有影响,各种报表、数据查询,都出不来。如今TDW的呆板宕机,业务完全无感知,体系会主动做切换、数据备份等等的事变。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


正是办理了业务的这些痛点,业务部分都乐意把盘算迁徙到TDW。到2012年底,昨们把全部原来在Oracle和mysql上跑的报表都切换到TDW。


TDW的建成,让昨们具备了融合全部产物平台的数据的本领。


从前的各产物的数据都是分散在各自的DB内里的,是一个个数据孤岛,如今,昨们以用户为中央,建成了十亿用户量级、每个用户万维特性的用户画像体系。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


从前的用户画像,只有十几个维度重要就是用户的一些底子属性,好比年事、性别、地区等,从前构建一次要泯灭许多天,数据都是按月更新,有了TDW,昨们天天更新一次。这个用户画像,应用在腾讯全部跟精准保举相干的产物内里。


再举个保举的例子。保举信赖各人如今都耳熟能详,但是放在6年前,这照旧一个刚刚新鼓起的应用;TDW为昨们提供了一个快速切入快速支持的本领。通过 MapReduce的编程范式,基于TDW 的平台,昨们可以专注于各种保举算法逻辑自己的实现,好比各人常见的CF, MF, LR 这些算法,以及各种 hash 聚类算法;这个时间的保举技能,面临海量的用户群体访问,更多照旧基于一种及时查询的服务方式。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


●聽●聽



第二代


第一代平台办理了量大的痛点,但是在速率方面另有题目,数据是离线的,使命盘算是离线的,及时性差。以是,昨们建立了第二代的大数据平台。在第一代底子上,集成了Spark,同时,还融合了Storm流式盘算的框架。这一代平台的集成,让昨们的盘算的粒度从原来的小时,发展到分钟,直至秒级。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel
数据收罗方面,昨们构建了TDBank,让原来通过接口机传文件的方式,T+1的粒度,酿成了毫秒级的及时收罗。在这个收罗平台内里,昨们自研的消息中心件,天天收罗的消息条数凌驾6.5万亿,可以说是天下上消息量最大的消息中心件。同时,昨们另有高可靠版本的消息中心件,能支持像金融、计费等高同等性的需求,包管消息不丢。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


在资源调理层面,昨们基于Yarn,发展了昨们的Gaia调理平台,Yarn只支持CPU和内存的维度,而昨们的Gaia还支持网络以及磁盘IO的维度,Yarn只支持离线盘算,Gaia能支持在线的场景,别的,昨们还支持doctor,昨们平台如今天天有1.5亿container。


再拿刚才提到的保举例子,基于第一代平台的保举应用会遇到2个题目,一个是随着用户量,访问量的增多,产生的数据会越来越多,多到在有限的时间根本不大概批处置惩罚的盘算完,另有一点是用户的举动模式变革很快,必要更快的去更新各种维度的用户画像;数据的及时收罗让用户举动,及时画像的盘算成为大概,这构成了流式盘算的 数据流,分布式的流式盘算及时更新各个维度的统计量,进一步形成了保举算法的及时练习数据,从而把上一代的 offline 的保举体系酿成了 online 的及时保举体系。在广告的保举应用上,昨们可以看到每一次的及时加速,都带来了更大的点击率提拔。


第二代的平台,及时性和体量方面,都能满意绝大多数业务需求。但随着昨们的数据量越来越大,昨们的瓶颈很快也出现了。昨们在Spark上做数据练习的时间,每一轮的迭代,在更新数据的时间,都会碰到网络方面的瓶颈,由于更新数据的地方是一个单点,假如数据的维度很大,这套框架就无法支持。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


在昨们的现实应用中,万万级的维度,都可以run得不错,但是上了亿级,性能就非常低了,乃至跑不出来。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


以是,昨们必须要建立一个能支持超大规模数据集的一套体系,能满意billion级别的维度的数据练习,而且,这个体系必须能满意昨们现网应用需求的一个工业级的体系。它能办理big data,以及big model的需求,它既能做数据并行,也能做模子并行。


●聽●聽



第三代-自研平台Angel


一个是基于第二代平台的底子上做演进,办理大规模参数互换的题目。别的一个,就是新建立一个高性能的盘算框架。




昨们看了其时业内比力盛行的几个产物



  • GraphLab,重要做图模子,容错差;
  • Google的Distbelief,还没开源;
  • 另有CMU Eric Xing的Petuum,其时很火,不外它更多是一个实行室的产物,易用性和稳固性达不到昨们的要求。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


看了一圈,昨们决定自研,走自研的路。昨们前两代都是基于开源的,第三代则开始了自研的进程。实在在第二代,昨们已经实验自研,昨们消息中心件,岂论是高性能的,照旧高可靠的版本,都是昨们自研的。他们履历了腾讯亿万流量的磨练,这也给了昨们在自研方面很大的信心。因此,第三代团体的盘算框架方面,昨们也走了自研的门路。第三代的平台,焦点是一个叫Angel的高性能盘算平台。昨们聚焦在高性能的盘算框架方面,同时,也是昨们往呆板学习、深度学习演进的一个门路。





  • 相比第二代,第三代的盘算框架,可以支持10亿级维度的算法练习,由从前的数据并行,到可以支持模子并行。


  • 同时,昨们第三代的平台,还支持GPU深度学习,支持文本、语音、图像等非布局化的数据。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel



  • Angel是基于参数服务器的一个架构,它跑在昨们的Gaia平台上面的。它支持BSP、SSP、ASP三种盘算模式;


  • 支持数据并行以及工业界更看重的模子并行,由于昨们重要遇到的照旧模子大的题目;


  • 别的,在网络上昨们有个原创的实验,昨们用了港科大杨老师的团队做的诸葛弩来做网络调理。ParameterServer优先服务较慢的Worker,当模子较大时,能显着低落等候时间,使命总体耗时降落5%~15%。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel



  • Angel提供很丰富的算法,支持LR、SVM、LDA、GDBT等等,而且集成了非常丰富的数学函数库。


  • 别的,还提供非常友爱的编程界面,能跟Spark、MR对接,你能像用MR、Spark一样编程。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


Angel跟其他平台相比,好比Petuum,和spark等,就昨们的测试效果,在划一量级下,Angel的性能要优于其他平台。好比昨们用Netflix的数据跑的SGD算法,各人看一下这个图的对比。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


同时,Angel更得当超大规模的数据练习。现在Angel支持了许多腾讯内部的现网业务。这里举两个例子,好比,在构建用户画像方面,从前都是基于Hadoop和Spark来做,跑一次模子要1天乃至几天,话题只有1k;而在Angel上,20多亿文档、几百万个词,3000亿的token,1个小时就跑完了。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


从前Spark能跑的,如今Angel快几十倍;从前Spark跑不了的,Angel也能轻松跑出来。再看一个case,视频的点击猜测,划一数据量下,Angel的性能是Spark的44倍以上。用了Angel以后,昨们维度从万万扩展到亿,练习时间从天收缩到半小时,而正确度也有不小的提拔。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


Angel不但仅是一个只做并行盘算的平台,它更是一个生态。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


昨们围绕Angel,创建了一个小生态圈,它支持Spark之上的MLLib,支持上亿的维度的练习;昨们也支持更复杂的图盘算模子;同时支持Caffe、TensorFlow、Torch等深度学习框架,实现这些框架的多机多卡的应用场景。


●聽●聽



总结


各位,邻近尾声了,我想总结一下腾讯大数据平台发展的三个阶段:


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel



  • 昨们从离线盘算起步,颠末及时盘算阶段,进入了呆板学习的期间。


昨们从跟随开源,发展到自研,昨们的发展历经了规模化、及时化,以及智能化的变迁。末了,我要借这个时机跟各人公布一个消息,那就是:昨们的大数据平台将全面开源。


源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel


昨们会在来岁上半年把Angel以及Angel周边的体系举行开源。昨们平台源自开源,昨们的发展离不开开源,以是昨们会以最大的力度拥抱开源。


实在在开源的门路上,昨们不停都在到场:



  • 昨们第一代平台的焦点,TDW-Hive,已经在2014年就开源了;


  • 昨们还在许多社区项目贡献了许多焦点代码,造就了好几个committer。


  • 而将来,昨们的开源力度只会越来越大。


小结:聽


在雷锋网眼里,Angel是腾讯完全自主的大数据平台,按照腾讯的说法无论是在性能照旧实用性,Angel比别的平台都有很大的上风,但让业界为之震动的照旧腾讯将其开源,而且开源的力度也是腾讯已往2代盘算平台无法相比的,毋庸置疑,对卑鄙厂商来讲,这是一个利好消息。


[tr][/tr][tr][/tr][tr][/tr][tr][/tr]


点击关键词可检察相干汗青文章


●聽●聽

热门文章


三星 80 亿美元巨额收购的背后,它想得到什么?
最新偷窃伎俩:ETC里的钱竟被POS机隔空刷光
2 份专利!Amazon Go 到底藏了什么黑科技?
Oculus Touch 发货,研发四年到底履历了什么?
APP 大升级:招商银行强势回应 Fintech 革命
独家 | 借贷宝被拖库?裸条 10 G“资源”背后故事


●聽●聽

GoPro | 「你的名字」同款滤镜 | AI 美颜
物联网年末盘货 | AI医疗影像公司盘货
华为5G | Autopilot 2.0 | 京东X奇迹部
商用性爱呆板人 | 淘宝 Buy+ | 张小龙内部演讲
马斯克太阳能瓦片 | 外国记者评价乐视生态
小米MIX | 小米VR | 华为麒麟960
MacBook Pro 发布会 | 微软发布会 2016
锤子M1/M1L | 龙芯3A3000 | 三星 Note 7
大疆 “御 ”Mavic | Google Home
国产多线激光雷达 | 谷歌 Daydream VR 头盔
小米5s | Movidius | lightning | Prisma | 直播
小米扫地呆板人 | 小蚁M1微单相机 | 小米条记本
应用号 | 华为无人机 | Amazon Echo
源码多多:重磅|腾讯大数据公布开源第三代高性能盘算平台Angel
楼主热帖

21

主题

29

帖子

113

积分

网站编辑

Rank: 8Rank: 8

积分
113