1.2万亿晶体管,史上最大半导体芯片诞生

来源:www.xjctc.net   时间: 2019-09-27

此前,这篇文章报道说,一家印度创业公司被人工智能的旗帜所烙印,但它是人为的,并且还获得了2950万美元的融资。

但大多数人工智能公司获得融资或真正做人工智能例如,2016年,Cerebras公司也投资2500万美元用于开发深度学习硬件。

今天,研究终于取得了成果。据ventruebeat称,Cerebras推出了历史上最大的半导体芯片,拥有1.2万亿个晶体管。

投资者似乎可以松一口气。

1.2万亿晶体管构建,是历史上最大的芯片

1971年,英特尔首款4004处理器拥有2,300个晶体管,而最新的Advanced Micro Devices处理器拥有320亿个晶体管。世界上最大的芯片Cerebras Wafer Scale Engine拥有1.2万亿个晶体管。

大多数芯片在12英寸硅片上创建了一系列芯片,并在芯片工厂分批处理。但Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连设计使它们全部以高速运行,因此1.2万亿个晶体管全部协同工作。

通过这种方式,Cerebras Wafer Scale Engine是有史以来最大的处理器,旨在处理人工智能应用。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的Hot Chips会议上讨论这一设计。

三星已经制造了一个大型闪存芯片eUFS,拥有2万亿个晶体管。但Cerebras芯片专为400,000芯和42,225平方毫米的工艺加工而设计。它比最大的Nvidia GPU大56.7倍。

WSE还包括3000倍的高速片上存储器和10,000倍的存储器带宽。

400,000 AI优化计算内核

WSE包含400,000个AI优化的计算核心。被称为SLAC(稀疏线性代数核),计算核心是灵活的,支持编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。 SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核被优化用于神经网络计算,因此它们实现了业界最佳的资源利用率。通常是图形处理单元的三到四倍。此外,WSE核心包括Cerebras发明的稀疏收集技术以及深度学习等加速稀疏工作负载(包括0个工作负载)的计算性能。

0在深度学习计算中很常见。通常,要乘的矢量和矩阵中的大多数元素都是零。但是,乘以零是浪费资源,权力和时间的行为。

由于GPU和CPU是密集的执行引擎,引擎的设计永远不会遇到0。他们甚至会在遇到0时进行计算。当50%-98%的数据为零时,例如在深度学习中,大多数乘法都是没有意义的。 Cerebras稀疏线性代数核不会乘以零。所有零数据都被过滤并直接在硬件中跳过,从而为其他有用的工作释放资源。

更接近计算内存

内存是计算机体系结构的关键部分。更接近计算内存意味着更快的计算,更低的延迟和更好的数据移动效率。高性能深度学习需要大量计算和频繁访问数据。这需要计算内核和内存之间的紧密接近,这在GPU中不是这种情况。

Cerebras Wafer Scale Engine包含更多内核,比迄今为止的任何芯片都具有更多的本地内存,并且可以在一个时钟周期内通过其内核访问18GB的片上内存。 WSE上设置的内核本地内存每秒提供9PB的内存带宽。比领先的GPU多3000倍的片上内存和10,000倍的内存带宽。

低延迟,高带宽通信结构

Swarm通信架构是WSE上使用的处理器间通信架构,它实现了突破性带宽和低延迟,而传统通信技术的功耗仅为其一小部分。 Swarm提供低延迟,高带宽的2D网格,可连接到WSE上的所有400,000个核心,带宽为每秒100 petabits。 Swarm支持可由接收内核直接处理的单字活动消息。

路由,可靠通信和同步在硬件中处理。该消息自动激活每个到达的消息应用程序处理程序Swarm,以便为每个神经网络提供唯一的优化通信路径。该软件根据正在运行的特定用户定义神经网络的结构,配置通过400,000个核心连接到处理器的最佳通信路径。

Cerebras WSE的总带宽为每秒100 petabits,不需要TCP/IP和MPI等通信协议。并且该架构中的通信能量成本远低于每比特1焦耳,这比GPU低两个数量级。通过结合大带宽和极低延迟,Swarm通信架构使Cerebras WSE能够比任何当前可用的解决方案更快地学习。

解决了大芯片制造的技术挑战

计算任务的芯片尺寸在AI应用中非常重要,因为较大的芯片可以更快地处理信息并在更短的时间内产生结果。通过缩短培训时间,研究人员可以进行更多测试,使用更多数据并解决新问题。 Google,Facebook,OpenAI,腾讯和百度都认为,今天人工智能的基本限制是培训模型需要很长时间。因此,培训时间是整个AI行业发展的主要瓶颈。

当然,有一个原因是典型的芯片制造商不生产如此大的芯片。在单个晶圆上,一些杂质通常在制造过程中出现。如果杂质会导致芯片故障,晶片上的多种杂质可能会破坏几个芯片。因此,实际效益只是实际工作芯片的一部分。如果晶片上只有一个晶片,那么它含有杂质的概率是100%,杂质会导致晶片失效。但Cerebras芯片设计为冗余芯片,因此杂质不会使整个芯片无效。

“在设计人工智能时,Cerebras WSE包含几十年来限制芯片尺寸的技术挑战的基本创新,例如交叉标线连接,产量,功率输出和封装,”Cerebras Feldman的创始人兼首席执行官在一份声明中说,“每个架构决策都是为了优化人工智能工作的性能。因此,Cerebras WSE提供了基于工作负载的现有解决方案的数量,而且功耗和空间很小。表现的一万次或几千次。“

Linley Group首席分析师Linley Gwennap在一份声明中表示:“Cerebras在晶圆级技术方面取得了很大进展,在硅片上实现的处理性能超乎想象。”为了实现这一目标,该公司解决了几十年来困扰该行业的一系列工程挑战,包括实现高速芯片到模式通信,解决制造缺陷,封装大型芯片,提供高密度电源和冷却。通过汇集来自不同学科的顶尖工程师,Cerebras在短短几年内创造了新技术并交付了产品,这是一项了不起的成就。

关于Cerebras Corporation

Cerebras是一家致力于加速深度学习的计算机系统公司,其联合创始人兼首席执行官Andrew Feldman是一位致力于推动计算的企业家。

在加入Cerebras之前,他是SeaMicro的联合创始人兼首席执行官,SeaMicro是节能,高带宽微服务器的先驱。 2012年,SeaMicro被AMD以3.57亿美元收购。在加入SeaMicro之前,Andrew曾担任Force10 Networks的产品管理,营销和BD副总裁,后来以8亿美元的价格将其出售给戴尔计算机公司。在加入Force10 Networks之前,Andrew在RiverStone Networks担任营销和企业发展副总裁,从公司成立到2001年首次公开募股,Andrew Feldman拥有斯坦福大学的MBA学位。

安德鲁费尔德曼

网友在推特上的评论也很多。是否有一个单独的芯片询问该芯片是否是加速器?

还有关于保持散热和稳定性的问题:

大多数网民都乐观地认为,这是第一款令人印象深刻且朝着正确方向前进的芯片!

  • 日期归档
  • 友情链接:
  • 版权所有© 新疆计算机培训中心 | 新ICP备10201303号-1 | www.xjctc.net . All Rights Reserved | 网站地图