AI 见闻

亚马逊认为数据中心的未来取决于它刚刚解决的技术问题

Wired — AI··Lauren Goode·约 8 分钟阅读

亚马逊表示,它最近在网络设计方面取得了重大突破,并自去年年底以来一直在其数据中心悄然部署新技术。该公司声称,它已显着提高了数据速度,同时减少了能源消耗,这可能会为这家科技巨头带来优势,因为公司竞相在云中构建更快的系统。

这项新技术基于“准随机”设计,该设计将传统结构化数据网络的元素与更随机的体系结构的性能优势相结合。研究人员几十年来一直在探索随机网络,但该技术从未成功扩展。现在,亚马逊认为它已经破解了密码。

伊利诺伊大学厄巴纳-香槟分校计算机科学教授、网络专家布莱顿·戈弗雷(Brighten Godfrey)表示,亚马逊在现实世界中使用这一技术的事实“非同寻常”,他没有参与亚马逊的研究。

戈弗雷在2012年与人合著了一篇关于随机网络图的开创性论文,他说这是“总的来说,这是一个令人费解的问题”。”亚马逊网络服务的一个工程师和研究人员团队(其中包括从学术界招募的几名)自2023年以来一直在研究随机网络问题。

亚马逊还设计了一款新的数据中心设备,名为ShuffleBox,它可以自动洗牌此类网络所需的电缆。

AWS网络工程副总裁马特·斯奈德(Matt Lider)在接受《WIRED》独家采访时表示:“通过本质上扁平化网络,我们消除了传统网络设计带来的瓶颈。”“我们认为我们是唯一一个大规模做到这一点的人。

”网络效应亚马逊在上个月发表的一篇题为《RNG:大规模扁平数据中心网络》的论文中详细介绍了其新的网络设计。RNG代表“弹性网络图”,它既不是完全结构化的,也不是完全随机的。有趣的是,RNG背后的亚马逊团队并没有围绕生成式AI进行这种网络宣传。

这是为了使公司的日常数据中心架构更加高效。“RNG非常适合我们的核心需求,但人工智能训练数据模式更加协调和集中编排,因此它们不会近似于随机图,”Alderder说。

自20世纪80年代中期以来,从电信到数据中心的通信网络主要采用“胖树”布局设计,其中包括两到三层垂直交换机和路由器。这些由结构顶部的“胖”节点连接,其中有多个相同类型的路由器,底部有较细的分支。

简单地说,在胖树网络中,数据在堆栈中上下移动。数据平分的结构顶部附近增加的带宽有助于消除瓶颈。

随着时间的推移,科技行业开发并部署了胖树架构的变体。但设计还有改进的空间。它通常可靠,但也刚性且效率低下,并且需要复杂的布线。就像实际的物理电缆一样。如果您去过数据中心或办公楼的服务器室,您可能会看到彩色电缆从金属支架中溢出。

莱德表示,布线是网络中最大的成本之一,亚马逊的全球数据中心目前通过2000万公里的光纤电缆连接。这大约是从地球到月球往返25次所需的距离。2012年,随着对云计算服务的需求呈爆炸式增长,伊利诺伊大学厄巴纳-香槟分校的一组研究人员(包括戈弗雷)提出了一个名为水母的概念。

当时使用的固定网络设计难以满足不断增长的需求,因此研究人员提出了一种“大容量网络互连”,通过采用随机图布局,自然地实现增量扩展。“他们相信这种随机方法比使用胖树架构构建的网络更高效、更可扩展。

“我们给它起了个名字‘水母’,因为它是流动的,”戈弗雷说。“你可以随机连接路由器和交换机,它就变成了灵活的网络容量池,非常高效。

”然而,Jellyfish也在布局、数据路由和布线方面带来了新的挑战。戈弗雷说,随机图中的路由更加棘手,因为数据从其来源到目的地可以采取更多且多样化的路径。布线更加困难,因为电缆的端点是随机选择的。

几年后,谷歌开始研究另一种解决方案:开始将光电路交换(OSC)集成到其网络设计中。这种方法使用微型镜子将光从输入端口反射到输出端口,这使得谷歌可以实时重新配置光缆。但同样,这增加了一定程度的工程复杂性和成本。

如此随意与此同时,亚马逊正在寻找“圣杯”,新论文的主要作者之一贾科莫·伯纳迪(Giacomo Bernardi)以及亚马逊学者拉图尔·马哈詹(Ratul Mahajan)和塞沙德里·科曼杜尔(Seshadhri Comandur)表示。

在理想的世界中,数据网络应该是扁平而高效的,对硬件故障有弹性,足够随机以最大限度地提高性能,并且足够可扩展以在不变得笨重的情况下增长。它还将依赖于更简单、简化的布线,而不是日益复杂的光纤系统。

伯纳迪说,当他和他的同事开始尝试建立这样一个网络时,他已经对彭罗斯瓷砖着迷了,这是一种以英国物理学家罗杰·彭罗斯命名的非周期性瓷砖。

(其他研究人员受到彭罗斯瓷砖的启发,试图将这些模式转化为量子计算机中的错误纠正代码。)伯纳迪想知道亚马逊是否可以使用类似的结构并通过遵循重复模式创建平坦的“网格”。他和他的团队尝试构建一个模拟的结果。

它没有起作用。伯纳迪说,彭罗斯瓷砖在纸面上很有希望,但模拟的数据网络并不可靠,研究人员也没有实现他们希望的效率提高。他意识到,当他们用随机性取代网络设计中更结构化的部分时,他们取得了更好的结果。

“我们‘拥抱混乱’,并采用了准随机方法,”伯纳迪解释道。该设计的一个关键组件是ShuffleBox,这是亚马逊开发的新型光学设备,可以混合内部路由器之间的连接。

在短暂参观亚马逊位于库比蒂诺的一个网络实验室期间,《WIRED》能够观察到传统胖树结构中路由器之间运行的混乱电缆束,并将它们与新设计中通过ShuffleBoxes运行的整齐电缆波并排进行比较。

劳埃德表示,亚马逊的RNG设计使该公司的数据中心更加高效、更具弹性。

他声称,与传统网络相比,它使用的路由器和交换机减少了69%,数据吞吐量提高了33%,网络功耗降低了40%,运营成本降低了27%。RNG的第一个实例于2024年在都柏林数据中心发布。亚马逊随后将该技术扩展到德国和西班牙的数据中心。

该公司表示,现在大多数新建的数据中心都配备了RNG网络协议。

原文出处
Amazon Thinks the Future of Data Centers Depends on a Technical Problem It Just Solved

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。