当前位置:首页 > 业务领域 > 生态维护 >

bob官方登录|新一代计算平台Dataworks会成为阿里计算引擎的“聚宝盆”吗?

编辑:bob官方网站 来源:bob官方网站 创发布时间:2021-10-04阅读21631次
  本文摘要:百万级吞吐量作业,计算平均秒延迟,重要指标打破开源Storm性能的6~8倍,计算成本接近开源软件。

百万级吞吐量作业,计算平均秒延迟,重要指标打破开源Storm性能的6~8倍,计算成本接近开源软件。2017年以来,经过双11动态业务数据简单分析考试研究的Blink成为蚂蚁集团最重要的动态计算引擎。PAI是阿里巴巴机械学习平台,无缝连接强大的计算引擎和大数据开发平台,没有超大密度模型的CPU系统级优化、大规模图像语音文本领域的GPU系统级优化、在线推理小说加快市场需求的模型传输等核心能力,反对在线自学、深度自学、自学强化、自学转移等多种自学方式。

在现场,阿里巴巴展示了下一代计算引擎,配置了大数据和AI生态链。这就是DataWorks。有一个非常形象的的子是,如果将MaxCompute、Blink、PAI等转换为PC的CPU、GPU、SSD等硬件设备,DataWorks就是这个大数据PC的Windows操作系统。

bob官方登录

DataWorks在整个计算引擎中展开了PCB。实质上,DataWorks项目于2009年开始,至今已成为蚂蚁集团数据开发的标准平台,承担着蚂蚁集团、蚂蚁金服、私人、优酷、高德等所有事业部的数据开发任务。

转入公共云市场,到2013年为止,DataWorks系列产品可以在世界16个国家和地区构建部署,包括新加坡、悉尼、香港、德国、马来西亚、日本、美国等。当然,2017年,以DataWorks为主体的蚂蚁云数特征,获得了国际软博会金奖的2018年,DataWorks在国家大数据博览会上获得了最佳案例实践中奖的2018国际权威评价机构Forrester发表的Cloud在Data支持Warehouse第二季度的排行榜上,代表阿里云,与MaxCompute合作,取得了世界排名第二的成绩。在对话交流中,就业界关心的话题向5位平台负责人提出了问题。以下是对话国史,实现了不改变意图的编辑和整理。

问题:Dataworks对计算引擎的历史传承,有什么目的?周靖人(阿里巴巴集团副社长):阿里巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴但是,今天发表的所有计算引擎都包括Maxcompute、Blink、PAI、Dataworks,不是简单的产品,首先在阿里巴巴自己的业务场景中取得了很大的顺利,协助整个业务的发展是很重要的。经过如此大的业务体积高强度的检验,我们也期待将一定程度的技术普及到世界,特别是中国的企业用户,以阿里云的方式对外输入这些产品,为各行各业的企业用户服务。因此,从历史上讲,至少在中国,阿里云整个计算平台应该是历史上最悠久的,当然,在技术积累深刻的同时,也受到了非常大的业务考验,是具有确实企业级服务能力的大数据智能计算平台。

问题:产品公开看起来合理,实质上最难的问题是?周靖人:每项业务都有不同的计算引擎,因此许多不同业务采用的计算不同的。随着阿里巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴难题是如何确保高性能、效率、功能和稳定性、安全性等。我们也非常准确地开发整个大数据和人工智能,不仅包括一些引擎的优化,整个过程也非常广泛。

训练模型,不是说模型是一定的,而是因为所有的应用都在各个方面大大生产数据,所以新的数据不会给我们带来新的数据,我们也不会用新的数据修正我们以前的模型,同时修正的模型也可以动态发表,中间的每一步都很重要问:计算平台不会随着蚂蚁云的全球化而全球化吗?周靖人:是的,也就是说,我们今天为中国公司业务国际化取得了坚实的基础。随着他们的业务发展,他们不必担心是否到了别的国家,是否必须将整个应用程序重制到别的平台上。

今天,随着蚂蚁云的蓬勃发展,有了成熟期的技术,他们可以用于某种程度的发动机,不深刻地改变他们的应用程序,就可以迅速地将他的业务扩展到海外,我真的是我们计算的平台、蚂蚁云基础设施给用户带来的巨大优势。问:实现一站式平台意味着现在第三者的IT外包公司不会消失吗?周靖人:相反。阿里巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴我也相信,由于云计算和大数据的发展,今天只有第三者的公司才能促进更大的机会。

有了这样的云平台,有了这样的大数据系统,我们的合作伙伴确实有机会认识更大的用户群。问题:在机械学习领域,在充分训练的前提下,深度自学网络参数越多,数据量越大,效果越少吗?林伟(阿里巴巴研究员、PAI平台负责人):不。模型越大参数越多,但不会引起更好的问题。

因为参数的表现空间越大。所以我们在训练时必须控制参数规模。因为机器学习是捕捉背后的逻辑关系,但其逻辑关系在现实和自然中有很多。相当大的参数,理论上只是违反自然规律。

因此,并非数据越少越少。但是,为什么深度自学最近这么热?因为有很多潜在的关系,人看到了,所以通过深度的网络,通过数据的能力,本来可能接近的好效果,现在可以超过了。但是,请不要忽视数据。

我们学习机器是数据最重要的,如果数据是不正确的数据,就不能培养可靠的模型。问:蚂蚁为什么不自由选择Flink作为下一代流动计算引擎?Flink现在有什么核心技术?蒋晓伟(阿里巴巴研究员、动态计算负责人):2013年前开始Flink项目,调查了业界的所有计算引擎。

bob官方登录

当时的目标并不是简单地选择流动计算的引擎。我们只想选择标准化的引擎。

我们相信在不同的计算模式下,有反对多种计算场景的东西。但是,由于很多流动计算发动机必须在延迟和突然之间进行一定的权衡,因此本质上不能计算发动机,特别是在延迟拒绝低的情况下,很难满足这个市场的需求。因此,此时我们开始调查其他各种发动机。

经过调查,Flink的价格最符合我们的理念。Flink的出发点和spark正好被忽视,以计算流为基础,需要构筑倒数处理。这样的批量处理是通过流程计算的(记录:批量处理和流程处理的基本区别是每个新数据到达时处理还是作为新数据的一部分几天后处理。

bob官方登录

批处理是指几天后继续执行,流处理是指立即继续执行)。Flink这个价格需要多年来完善计算和批量处理,所以要求使用Flink。

在过去的三四年里,我们在Flink发动机上投入了很多。Flink的多版性能改良、引进新价格、共享更好的代码等。蚂蚁内部有更好、更先进的设备硬件结构,开始反对存储分离计算结构。

在这种结构下,流量计算发动机在结束时可以更慢地修理,需要更动态地适应环境流量的变化,修改计划。问:为什么蚂蚁计算发动机今天一站式?徐盛(阿里巴巴老手技术专家、Dataworks负责人):我们期待用户统一体验。

关于用户解决问题的问题,我们下面有不同的发动机解决问题的可能性很高。因为对于用户来说,我希望他能看到一套产品,而不是让用户做选择。

至于使用什么技术,用户可能不是最重要的。但是,对于用户来说,我们看到的是同一层,我们不希望用户能够更加插手解决这个问题。今天,如果用户想进行模拟训练或者想做什么,我会适当地为你做。

至于代码最后跑到哪里,我真的不太关注用户。但是,谷歌实现AlphaGo不是为了下围棋,而是为了证明有能力获得这样的平台来解决问题。

这也是我们的想法。原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:bob官网,bob官方网站,bob官方登录

本文来源:bob官网-www.blue-wood.com

0895-87876466

联系我们

Copyright © 2010-2014 石嘴山市bob官方登录科技股份有限公司 版权所有  宁ICP备97602848号-9