突破流计算极限挑战的阿里,将发力图计算及大规模机器学习

来源:www.xjctc.net   时间: 2020-01-23

最近,顶级架构会议ASPLOS首次在中国举行。阿里巴巴副总裁兼阿里巴巴云首席科学家周景仁发表了主题演讲,介绍了阿里云的大数据和人工智能计算平台,以及广泛的产品和服务。与此同时,据透露,阿里将进一步发展图形计算和大规模机器学习领域。

图为周敬仁演讲的场景

阿里突破了流量计算

随着物联网传感器,移动应用和在线服务的普及和广泛使用,越来越多的数据正在流中生成。基于数据流的实时分析变得越来越重要。例如,实时业务决策依赖于高度时间敏感的报告,而在线服务优化需要动态捕获用户行为。这一系列应用程序的背后与大规模流式计算平台的支持密不可分。从系统架构的角度来看,海量数据流输入需要大规模集群,7x24连续计算而不会中断,同时满足高吞吐量和低延迟。大规模集群中的各种软件和硬件故障以及网络异常以及输入流量和数据的动态变化可能对流计算构成重大挑战。 2016年,Ali Data Platform支持每秒近1亿个日志事件的峰值计算,并在6小时内成功处理100PB数据。

阿里突破了流量计算

在演讲中,周景仁介绍了以容错为例的阿里系统设计中的一些关键技术。所谓的容错是指当计算节点发生故障时,由于数据流的连续性,它将影响上游和下游,并且计算状态也将丢失。与离线计算相比,复杂的系统依赖性使得在流量计算过程中自动恢复错误成为关键挑战。

据周静仁介绍,行业和开源流媒体计算系统通常设计基于单一容错策略的系统,例如输入重新计算,全局快照和小批量。实际场景中的大规模流计算应用通常由具有不同计算吞吐量和延迟要求的多个相互关联的部分组成。例如,计算高吞吐量输入流与按小时更新的数据集之间的关联。因此,不同部分的容错要求需要采取不同的策略,如何在同一系统设计中结合不同的策略是问题的关键。 Ali在该领域做了大量创新工作,例如在上游和下游之间建立虚拟管道抽象,将容错设计和正确性分析与系统实现和优化机制分离。不仅降低了系统的复杂性,而且允许系统根据场景灵活地实现和组合多种策略,以应对大规模集群中的各种复杂情况。

图计算3大挑战

据周敬仁介绍,图形计算是阿里关注的重要技术之一。它可以将大量信息(如电子商务平台,用户产品和支付宝账户)建模为节点。基于此,可以生成丰富的分析场景。在阿里搜索推荐,反作弊,知识地图等领域的大规模应用。

Jing Ren指出,由于物理模型中存在许多关系和数十亿个节点和边缘,并且动态更新速度很快,因此在执行复杂图形分析的同时实时并发更新图形数据是为了工业和学术界。世界的主题。具体而言,三个方向存在挑战。

挑战1:图形可视化,如何有效地显示图表背后的特征和信息,更好地与人交互,协助推理,分析和决策。

挑战2:模式匹配,基于业务特征,定义和识别复杂关系网络中的核心模式,实现大规模图形的快速匹配。常见方案包括反欺诈,风险控制和ID映射。

挑战3:处理快速变化的图形,即图形节点和边缘动态更新时的图形计算问题。

此外,如何将图形计算和机器学习相结合,并使用人们的在线行为模式来进一步改进推荐,搜索和其他效果,这也是阿里技术人员正在解决的问题。

周敬仁认为,阿里机器学习的优势在于有效利用了数以亿计的数据样本和功能。 Ali的服务器架构是为处理如此庞大的模型和数亿个参数而开发的。 “目前,阿里的大型机器学习平台可以支持深度学习模型培训和模型更新。此外,我们还构建了CPU,GPU和FPGA异构计算平台,可以针对不同的业务特点优化机器学习。”

据知情人士透露,阿里正在与图形计算和大型机器学习领域的知名大学建立合作平台,希望与学术界共同推动这些领域研究的快速发展。根据外界分析,这是阿里之前宣布的“NASA”计划中的重要技术布局之一。

  • 友情链接:
  • 版权所有© 新疆计算机培训中心 | 新ICP备10201303号-1 | www.xjctc.net . All Rights Reserved | 网站地图