匠心故事 | 百炼成钢的FusionStorage 8.0

来源:www.xjctc.net   时间: 2020-03-24

从去年11月到今年春节前后,华为存储研发的骨干曹长斌因为在Fusion Storage 8.0研发项目遇到困难而难以入睡。那时候,曹长斌甚至想过如何解决研发所面临的问题,即使他吃饭也跑了。

Fusion Storage 8.0是近年来华为存储最重要的战略产品。它不仅是华为存储产品线的重大升级,也是帮助用户实现One Data Center One Storage的愿望。

时间过得很快,时钟已经无意中在5月15日到来。这一天,华为新一代智能分布式存储产品Fusion Storage 8.0正式发布。此刻,曹长斌松了一口气。经过多日持续奋斗所带来的疲惫无法掩盖这种兴奋:“如果你需要得分,我想对Fusion Storage 8.0进行评分。它不仅在整体结构,性能,功能和其他方面都遥遥领先,此外,华为存储研发是以客户为中心,通过全球化。协作是第一个克服行业内许多挑战的产品。

Fusion Storage 8.0实现了全球首个分布式存储性能,单节点性能高达168,000 IOPS,延迟小于1毫秒,在行业标准SPC-1测试中排名第一。这是第一次同时支持一组存储中的块,文件,对象,HDFS协议;它是第一个将AI技术集成到存储中的产品。生命周期管理。

在这一系列美丽人物的背后,华为在北京,上海和深圳的六个研发团队设计了一个新的存储架构,开发并移植了数千万行代码,并相继进行了近十个版本的迭代,反复抛光和优化结果。

简没有减少

“客户经常向我们的建筑师反馈存储非常复杂。”作为研发公司的曹长斌经常与建筑师沟通。他介绍说,华为存储架构师每年将30%的时间花在一线客户身上。沟通,尽可能地向研发人员反馈一线业务需求,然后准确开发满足客户需求的产品和解决方案。

存储的复杂性一直困扰着用户的数据中心。这种复杂性主要体现在长期的信息化建设上。用户数据中心通常面临多种类型的存储。生产,备份和灾难恢复通常使用不同的供应商。不同的存储产品,烟囱存储环境带来了巨大的管理复杂性,并且不能让数据流动,共享和价值挖掘。曹长斌表示:“客户希望更多地关注核心业务创新,并渴望通过一系列存储来移动数据,支持数据中心业务,实现数据生产,流程,共享和价值挖掘。”

另一方面,大量行业客户正在加快数字化转型的步伐,并且更加渴望基于数据的数字创新和业务敏捷性。这也需要携带数据的存储产品。除了简化管理复杂性之外,还需要性能。可扩展性,功能性,智能性等方面都有了质的提升。

曹长斌以电信业为例:“4K/8K和AR/VR等新业务不断涌现,充满了不确定性。传统的存储产品很难满足新业务从小到大的增长。用户希望不要花更多钱。专注于存储操作和维护,通过一组存储来支持业务变化。“

事实上,在FusionStorage 8. 0开发之前,华为一直在酝酿产品。最后,华为将FusionStorage 8. 0定位为战略平台产品,可以发展其他丰富功能,包括文件系统,数据库,数据分析和数据,同时保持分布式存储的灵活性和可扩展性。湖等。用户可以通过FusionStorage 8.0建立自己的智能数据基础设施,满足智能时代数据存储,管理和分析的需求。

打开Ren Duo两个静脉的表现

分布式存储的最大优势是灵活性,可以帮助用户摆脱昂贵的高端硬件,并通过普通服务器为用户提供灵活,可扩展的存储服务。但是,分布式存储的性能往往容易遇到瓶颈。与使用“专用堆栈”优化性能的传统存储相比,分布式存储随着节点数量的增加而性能达到一定水平,往往是由于硬件,网络等原因造成的,我遇到了各种意想不到的“瓶颈”。因此,分布式存储单节点的稳定和优异性能是测试分布式存储颜色的重要因素。

在曹长斌看来,性能问题是FusionStorage 8.0开发过程中遇到的最大挑战之一。 “从项目设计开始,我们希望FusionStorage 8. 0能够实现企业级全闪存阵列的性能,单节点性能为140,000 IOPS,延迟控制在1毫秒以内,可以承载企业级关键应用。该团队为此做了大量的前期研究工作。然而,在实际的开发过程中,确实是一个巨大的挑战。“曹长斌所说的挑战是性能波动问题。分布式存储节点的性能波动较大,不稳定,给整体分布式存储性能带来瓶颈。

由于单个节点的性能在开发初期达到100,000 IOPS,因此Fusion Storage 8.0无法很好地运行。让研发团队更头疼的是,有许多“隐形瓶颈”导致性能波动,需要研发人员逐一查找和解决。曹长斌说:“解决整个性能波动问题花了四个月的时间,我们几乎每天都在讨论和研究它,直到凌晨2点和3点。”

为此,华为存储研发团队在此期间联系了华为全球研发体系中的运营系统调度专家和网络专家,从不同角度探讨了性能波动问题。 “首先,我们发现中断分布不均匀的问题。有些服务器过度中断,导致服务器性能无法发挥。因此,在探索了几种方案后,实现了中断共享,从而提高了单节点的性能。在解决了这一优化点后,研发团队从业务干扰,软件堆栈,分布式锁定等方面进行了优化,最终实现了原设计的性能目标。

通过华为研发团队优化,登陆,重新优化的螺旋式上升,Fusion Storage 8.0开辟了两个性能监控渠道,更加准确地控制服务器硬件和网络,实现单节点的稳定性。 168,000 IOPS。

创建强大的存储生命线

随着Fusion Storage 8.0性能的不断提升,华为存储研发团队遇到了另一大挑战:如何在高性能和大并发数据读写的情况下保持数据一致性。

保持数据的可靠性和一致性一直是存储产品的生命线。 “在存储产品中,数据一致性是核心的核心。如果写入的数据与读取的数据不同,则会对用户的业务产生巨大影响。”曹长斌说。与传统存储不同,由于使用通用服务器硬件,分布式存储产品必须采用不同的方法来实现可靠和一致的数据。随着集群节点的不断扩展,分布式存储系统的复杂性也随之增加。它还对数据一致性提出了更大的挑战。

在FusionStorage 8. 0的性能调优过程中,华为存储研发团队遇到了更多的数据不一致问题。 “那时,为了提高性能,有些数据可能不会立即写入磁盘,而是写入内存。以前的一些并发机制导致旧数据覆盖新数据,并且数据不一致。”经过近一个月的重复研究,华为存储研发团队决定设计和开发一套新的日志记录机制和工具来解决数据不一致问题。 “通过新的日志记录机制,数据访问和数据放置前的导出,关键信息的打印,加上CRC检查,找到并解决数据不一致的问题。”曹长斌说,“通过IO通道从开始到结束跟踪,可以专门定位整个IO通道的哪个模块,具体功能在具体模块中引起的数据不一致,促进层解决问题。“

在解决数据不一致的过程中,华为存储研发团队面临的最大困难是找出哪些IO导致高性能,大并发读写数据中的数据不一致。 “由于存在巨大的不确定性,数据不一致是存储行业中最困难和最大的挑战。跟踪和查看海量数据中的IO异常就像在大海捞针一样。”曹长斌回忆说,当时的情景依然生动。 “在整个过程中,整个团队经常需要转换班次来跟踪和查看夜间,逐周的IO异常情况。”

最后,华为存储研发团队完成了FusionStorage 8. 0中数百个节点,数百个节点和数千个节点等不同场景下数据不一致的验证,解决了近30个业务IO异常问题。为FusionStorage 8创建了强大的生命线。

功能与性能的完美平衡

在应对FusionStorage 8. 0性能和数据一致性的挑战的同时,华为存储研发团队专注于如何解决性能和功能之间的平衡。如果你用一个比喻来描述表演和功能之间的关系,那么鱼和熊掌不可能是最真实的写照。例如,重复数据删除和压缩已存在很长时间,但业界仍然无法平衡分布式存储上的重复数据删除和存储性能。

“重复数据删除压缩功能实际上是对IO通道的一种操作,它对存储性能有很大影响。与在线重复数据删除一样,分布式存储的性能要求非常高,而离线重复数据删除具有存储介质的寿命。存储产品。影响。“曹长斌说。

为此,华为存储研发团队在FusionStorage 8中开发了在线和离线自适应重复数据删除压缩功能.0。根据存储系统的CPU,内存,存储介质等资源条件,采用减重算法实现重复数据删除功能。适应性调整。 “该团队在开发此加权算法之前和之后花了将近两个月的时间。通过反复的理论推导和调整,FusionStorage 8. 0重复数据删除压缩功能可以与性能完美平衡。“据报道,在高负载下,业界的重复数据删除压缩功能可以影响性能30%-50%; FusionStorage 8.0重复数据删除压缩功能的自适应机制可以将对主机性能的影响降低到15%以下。 15%将自动切换到后端重复数据删除。

在海量数据成为常态的情况下,分布式存储的数据可用性变得至关重要。分布式存储中的冗余可以提高数据可靠性和存储系统可用性。通常,业界使用多个副本或Erasure Coding(EC)来实现数据冗余。与多拷贝的巨大存储消耗相比,擦除代码技术可以在更小的存储空间中实现更好的容错性和安全性,而且对存储系统的性能也有更大的影响。因此,分布式存储中的擦除代码功能如何实现存储空间利用和性能成为业界的问题。

“EC功能有两个主要问题。一个是打开功能后对主机性能的影响。一些存储产品在打开功能后会影响主机性能约30%。另一个是如何曹长斌表示,为此,华为的存储研发团队设计了多种型号和替代方案,以减少EC功能对主机性能的影响。经过多次验证,华为智能增强型EC功能达到了完美的平衡。表现和能力。

“在高并发和高负载的情况下,智能增强型EC功能通过IO聚合解决性能问题,并利用存储磁盘的特性将随机读写更改为顺序读写。此外,对于大型 - 缩放EC,我们采用额外的写入模式意味着当您修改某个数据时,您不需要读取旧数据和校验和,这大大降低了对性能的影响。“

使存储更智能

多年来,存储一直受到批评,包括复杂性,如何规划和分配容量,如何优先考虑QoS优先级,如何使用资源,何时扩展,如何检测和处理故障等。这一系列问题将涉及用户很多精力和时间。如何使存储智能化,这是存储的未来发展趋势,而FusionStorage 8. 0正朝着全面进步的方向发展。

存储智能是智能时代用户不可避免的吸引力。为此,华为率先将人工智能技术集成到FusionStorage 8.0中的存储生命周期管理中,并在资源规划,业务提供,系统调优,风险预测和故障定位等方面实施智能运维管理。

据华为公司称,FusionStorage 8. 0可以预测存储资源规划中60天的性能容量趋势。它还有1000多个应用程序模板来实现一键式资源分配;并且可以100%个性化和优化。满足SLA声明;超过2000个故障模式库,93%的问题可以给出解决方案。

实际上,存储是利用人工智能技术的理想环境。利用丰富的状态数据和信息以及固定的业务场景,可以轻松形成收集状态数据,机器学习和培训,预测和智能决策的闭环。持续的学习和培训使存储操作和管理更加智能化。

FusionStorage 8. 0智能的突破还在于使用云培训+本地培训。云有超过2PB的特征数据和1000个场景。通过云和云的结合以及本地协作,可以实现本地增强。培养并增强您的个性化体验。

让数据永远持续

“我们需要尽一切可能防止新产品中的数据丢失并进一步提高数据可靠性。”

事实上,在数字时代,数据已经成为一种生产手段,数据正在成为企业和组织生存的基本资源。而且,与信息时代相比,用户需要在数字时代面对更多的数据类型和更复杂的应用场景。例如,物联网的应用场景逐渐丰富,业务与云之间的连接变得越来越频繁,这也导致越来越多的潜在数据丢失因素。

为此,华为的想法是对各种数据丢失时间的原因和背景进行深入分析,并对相应的场景可靠性方案进行细化和总结,从根本上提供数据丢失防护。然而,出现了新的问题:如何在保持可靠性检查的有限空间内适应这些场景的可靠性。

“这确实是一个非常具有挑战性的问题。华为在FusionStorage 8. 0中包含了一个支持30多种数据丢失场景的可靠性解决方案,但可靠性验证的空间仅为64字节。使用64字节来容纳超过30个场景是非常困难的,“曹长斌说。整个过程就像一个精确的操作,研究人员将每个预防程序”植入“到极其可靠的交易空间,准确到每一位。

更罕见的是数据丢失情景不是一次性收集。这是一个持续的过程。可靠性验证空间中的每个额外预防计划都需要确保解决方案可行。节省空间。曹长斌直截了当地说:“这是一个无比精炼的过程。经过四到五次调整后,整个数据丢失预防程序完美地存储在可靠性检查空间中。”

从跟随到分化

“我们希望在FusionStorage 8. 0中制造出行业竞争对手无法获得的东西,并形成自己的差异化优势。”作为华为存储和开发的资深人士,曹长斌从1.0到8见证并参与了FusionStorage。整个过程。

众所周知,存储是一个相对高科技,相对封闭的领域。外国存储巨头全年处于领先地位。多年来,中国本土存储品牌一直扮演着追随者的角色。曹长斌深深感受到这一点:“过去,竞争对手做了什么,我们遵循我们所做的,采用'我也是,但更便宜'的策略;然后随着我们不断发展,我们赶上技术层面并成为'我也是,但更好'。现在是寻求开发其他人没有的功能和技术,并确定他们自己的差异化优势。“

此外,华为还在灾难恢复和备份集成解决方案方面进行了创新,并利用其在通信网络领域的深厚积累,建立了存储+智能人工智能网络集成解决方案,大大提升了其竞争力。

“FusionStorage 8. 0的成功开发是公司努力的结果,不仅是公司的成就,还有包括我在内的广泛研发团队成员的个人能力。我为此感到非常自豪。”曹长斌终于说道。

写在最后

华为FusionStorage诞生于2012年,源于“用普通服务器硬件构建企业存储系统”的理念。在此过程中,FusionStorage从1.0增长到8.0是华为持续不断改进的精神。这也是华为存储人解决行业问题,逐步实现原创理念的过程。有一个弱到强的真实写照。

未来,随着5G,物联网和人工智能等应用的兴起,新数据将迎来一个新的,更加智能化的时代。华为FusionStorage 8. 0不仅使One Data Center One Storage(数据中心存储)能够在新的数据时代登陆,而且还打开了华为智能数据战略的新篇章。

本文由网站管理员用户提交,未经网站管理员联盟同意,严禁转载。如果广大用户和朋友,发现稿件有虚假报道,欢迎读者反馈,纠正,报告问题(反馈录入)。

免责声明:本文是用户提交的文章。网站管理员联盟仅将此文章发布为消息。这并不意味着网站管理员联盟同意其观点。它不对内容的真实性负责。它仅供用户参考,不构成任何投资或使用。建议。要求读者验证可能存在的真实性和风险,任何后果都是读者的责任。

  • 友情链接:
  • 版权所有© 新疆计算机培训中心 | 新ICP备10201303号-1 | www.xjctc.net . All Rights Reserved | 网站地图