
日前,一家名为Upscale AI的芯片初创公司宣布。已完成 2 亿美元的 A 轮融资,旨在挑战英伟达在机架级 AI 系统交换机领域的统治地位,与思科、博通和 AMD 等公司展开竞争。
据该公司在新闻中介绍,本轮融资由Tiger Global、Premji Invest和Xora Innovation领投,Maverick Silicon、StepStone Group、Mayfield、Prosperity7 Ventures、Intel Capital和Qualcomm Ventures参投。此次融资使Upscale AI的总融资额超过3亿美元。他们进一步指出,投资者的迅速涌入反映了行业日益增长的共识:网络是人工智能扩展的关键瓶颈,而旨在连接通用计算和存储的传统网络架构从根本上来说并不适用于人工智能时代。
在他们看来,关键的区别在于:传统网络连接的是终端节点,而人工智能网络则统一整个集群。随着专用人工智能计算的不断扩展,它越来越受到改造或专有网络架构的限制。传统的数据中心网络解决方案是为人工智能出现之前的世界而设计的,而不是为机架级规模所需的大规模、高度同步的扩展而设计的。
一个旨在撼动英伟达护城河的团队
大家都知道英伟达的GPU,但正如我们再很多报道中所说,这家巨头在网络方面也表现很不错。受人工智能数据中心连接需求强劲的推动,英伟达2026财年第三季度的网络业务收入同比增长162%,达到81.9亿美元,这已经远超他们当年收购Mellanox所耗费的资金。NVlink也成为了英伟达当之无愧的护城河。
考虑到当前单芯片性能扩展乏力,Scale Up和Scale Out的连接需求在未来很长一段时间必将成为主流。换而言之,如果能够制造出高基数(即端口数量众多)且端口间总带宽高,足以与英伟达NVSwitch内存架构和NVLink端口相媲美的UALink交换机的公司,必将大赚一笔。
Upscale AI,就是一家抱着这个理想而成立的公司。而该公司的创始人Rajiv Khemani,则是行业中让人如雷贯耳的连续芯片创业专家。
据介绍,Rajiv Khemani曾担任Sun Microsystems公司的高级产品经理,负责Sparc服务器和Solaris操作系统。他还曾在NetApp和英特尔公司任职,负责多个业务部门的战略和市场营销。
2003年,他出任芯片初创公司Cavium Networks的首席运营官。该公司成立于2000年,最初以生产MIPS处理器起家,但后来凭借2014年推出的ThunderX服务器CPU进军Arm服务器市场,并因此声名鹊起。同年,Cavium收购了新兴可编程交换机ASIC制造商XPliant。2016年6月,Cavium斥资13.6亿美元收购了QLogic的存储业务。2017年11月,芯片巨头Marvell斥资60亿美元收购Cavium,正式进军数据中心领域。
Khemani 于 2015 年离开 Cavium,成为 Innovium 的联合创始人兼首席执行官。Innovium 是一家设计高带宽、极简主义超大规模以太网交换机 ASIC 的公司,其产品名为 TeraLynx。Marvell于 2021 年 8 月以 11 亿美元收购了 Innovium ,以进一步推进其数据中心芯片的雄心壮志。
到了2022年2月,Rajiv Khemani和Barun Kar创立了一家名为Auradine的公司,该公司致力于研发4纳米和3纳米制程的人工智能和区块链计算及网络芯片。Auradine在2024年之前完成了两轮融资,共筹集了1.61亿美元,并在2025年4月的B轮融资中又筹集了1.53亿美元。
到了2024年5月,Khemani和Kar决定将Auradine的部分网络业务剥离出来,成立一家名为Upscale AI的新公司,以便更直接地开拓预计到本十年末将达到1000亿美元的人工智能互连市场。在成立之初,该公司得了英特尔、AMD 和高通等公司的支持,
值得一提的是,Kar是Auradine和Upscale AI的另一位联合创始人,曾任Palo Alto Networks(一家防火墙和其他安全产品制造商)的工程高级副总裁兼创始团队成员。在此之前,早在互联网泡沫时期,Kar就曾担任Juniper Networks的高级系统经理,负责管理其以太网路由器和交换机产品。
Upscale AI表示,公司的策略是将 GPU、AI 加速器、内存、存储和网络整合到一个单一的同步 AI 引擎中。作为 Upscale AI 战略的核心要素,专为扩展而打造的 SkyHammer解决方案通过缩短加速器、内存和存储之间的距离,实现了统一机架,并将整个堆栈转换为一个统一的同步系统。
Upscale 的 AI 平台基于开放标准和开源技术构建,并积极推进这些标准和开源技术的发展,包括 ESUN、Ultra Accelerator Link (UAL)、Ultra Ethernet (UEC)、SONiC 和交换机抽象接口 (SAI)。该公司积极参与 Ultra Accelerator Link 联盟、Ultra Ethernet 联盟、开放计算项目 (OCP) 和 SONiC 基金会。
凭借新增的 2 亿美元融资,Upscale AI 将推出首个涵盖芯片、系统和软件的全栈式交钥匙平台,旨在连接未来通用人工智能 (AGI) 的异构系统。
一款专为网络而优化的芯片
如上所述,人工智能集群由多个机架组成,每个机架可容纳数十台服务器。这些服务器通过内置于主机机架中的交换机相互交换数据。机架交换机的技术特性通常与其他网络设备(例如用于连接不同机架的设备)的技术特性有显著差异。
而Upscale AI 正在开发的这款名为 SkyHammer 的产品是一款专为纵向扩展网络(即连接机架内部硬件组件)而优化的芯片,能提供确定性延迟。这意味着可以高精度地预测数据在机架组件之间传输所需的时间。
众所周知,人工智能模型通过计算来处理数据,而这些计算必须按特定顺序执行。因此,一次计算的延迟往往会导致后续所有处理步骤的延迟。提前预测网络延迟可以避免意外的数据传输延迟,从而防止人工智能工作负载变慢。
在接受Nextplatform采访的时候,Upscale AI阐述了自己的目标:
首先,如今,对于规模化 AI 网络而言,真正切实可行的选择其实只有一个,那就是 NVSwitch。这也是英伟达在 GenAI 浪潮中取得巨大成功的原因之一(当然还有其他原因)。而Upscale AI 希望为客户提供更多选择。
“我一直坚信异构计算和异构网络是未来的发展方向,”Upscale AI高管告诉The Next Platform。“人们应该有自由选择权,可以灵活组合各种资源,因为每个人都有其独特之处,而这种组合方式能够根据每个人的需求进行优化。
有见及此,Upscale AI 致力于普及 AI 计算的网络,他们坚信异构计算的潜力。
“我们认为英伟达拥有卓越的技术,在创新方面也是一家杰出的公司。但展望未来,随着 AI 创新的步伐不断加快,我认为没有任何一家公司能够提供 AI 所需的所有技术——尤其是在未来发展趋势方面。因此,这必然意味着不同供应商将提供不同类型的计算解决方案。”Upscale AI 强调。
Upscale AI 同时认为,当少量 CPU 与少量 GPU 通信,且 GPU 的相对内存带宽较低,并且 CPU 和 GPU 在服务器节点中紧密排列时,PCI-Express 交换机制能够很好地工作。Upscale AI 于 2024 年初启动时,UALink 联盟和 Meta Platforms 提出的 ESUN 标准尚未成立,但异构基础设施的概念早已存在,其目的并非仅仅是为了构建一套能够完成所有任务的单一基础设施,而是为了构建一套能够更好地匹配不同任务工作流程的基础设施。
“未来,单个GPU可能无法完成所有计算任务,异构计算将会成为主流,”Upscale AI 方面解释道。“某些CPU、GPU或XPU可能擅长预编码和预填充,而其他设备可能擅长解码。但如果X厂商擅长预填充,Y厂商擅长解码,又该怎么办呢?交换如今已成为这台机器的核心,它将所有这些功能连接起来,必须确保连接的公平性,并且还要具备可扩展性和可靠性。可靠性至关重要,因为你的任何操作都会直接影响系统中的所有计算。”
在NextPlaform的采访中,Upscale AI 对那些通过美化 PCI-Express 交换机 ASIC 或拆解以太网交换机 ASIC 来制造 UALink、ESUN 或 SUE 交换机的做法嗤之以鼻。
“我看到的很多做法都像是对PCI-Express进行改造,也就是拿PCI-Express的基板来尝试做其他事情,或者其他厂商拿以太网来尝试改造。但整个内存领域的关键在于它无法改造。那样做无法为客户提供真正优化的、仅能向上扩展的堆栈,因为最终的结果只是拿一个基板,试图移除不需要的东西。长期从事ASIC行业的人都知道,你可以移除很多模块,但基本单元仍然保持不变。每个ASIC都有其不变的基本DNA。”
因此,Khemani 和 Kar 着手从头开始构建一个内存结构 ASIC,专门用于此目的,然后确保它支持内存语义协议的更新。
虽然并没有披露AISC细节,但Upscale AI 表示,SkyHammer 将生成实时遥测数据。遥测数据,即关于系统的技术数据,不仅对故障排除至关重要,对配置任务也必不可少。管理员可以分析网络设备的状态遥测数据,从而找到优化其性能的方法。
SkyHammer还兼容多种开源网络技术,其中包括UALink和ESUN。这两个项目都致力于利用以太网实现可扩展的网络应用场景。ESUN是其中较新的项目,于去年启动,并获得了英伟达、博通和其他主要行业参与者的支持。
SkyHammer还将支持一种名为UEC的网络技术。ESUN旨在连接机架内部的组件,而UEC则专注于连接不同的机架。它可以为多达100万个芯片的AI集群提供支持。
“我们正在研发一种高基数交换机(high radix switch )和一款能够实现这一切的专用集成电路(ASIC)。”Upscale AI强调。
写在最后
NVLink 是英伟达开发的一种高速互连技术,用于将内存和计算资源从多个 GPU 中抽象出来,使它们看起来像一个单一的逻辑资源。
这项技术于2024年问世,此后,AMD和思科等公司一直在尝试开发替代方案。但他们迄今为止的努力(例如UALink和ESUN),仍不成熟。
AMD首批基于UALink的机架式系统将于今年晚些时候上市,但它们将通过以太网隧道传输该协议。能够与Nvidia的NVSwitch竞争的专用UALink交换机目前尚未问世。Upscale的目标是通过其SkyHammer定制ASIC芯片改变这一现状。
Upscale AI 首席执行官 Barun Kar 告诉外媒El Reg:“我们不是在改造传统系统,而是在重新构想 AI 网络中规模的真正含义。”“这种架构的核心本质上是为了扩展规模。它是专门为人工智能工作负载而设计的,不适用于其他任何用途。”
虽然我们没有足够的信息将这款芯片与 NVSwitch 6 或 Broadcom 的 Tomahawk 6 进行比较,但 Kar 告诉我们,它采用了基于内存语义的加载-存储网络架构,并将具有类似于 Nvidia Sharp 的集体通信加速功能。
该平台还将同时支持 UALink 和与其竞争的 ESUN 协议。
为了使整个系统能够大规模管理,Upscale 正在努力扩展对 SONiC 网络操作系统 (NOS) 的支持。SONiC 是一款开源 NOS,最初由微软开发,已被广泛部署,并深受超大规模客户的青睐。
目前,Upscale 主要专注于纵向扩展网络产品,但长期来看,计划将产品线扩展到更传统的横向扩展交换机。Kar 告诉我们,为此,公司仍在评估各种方案,并可能借助合作伙伴的第三方知识产权。
“我们已经与超大规模数据中心运营商和GPU供应商建立了合作关系,他们已经验证了该架构。这部分工作已经完成。现在,这笔资金的重点是将创新转化为实际部署,”Kar说道
Upscale AI执行董事长Rajiv Khemani也表示:“Upscale AI在极短的时间内就取得了非凡的发展势头。市场需要开放、可扩展的AI网络解决方案,而Upscale AI凭借其独特的优势,能够帮助客户突破当前网络方面的限制。”
*免责声明: 文章内容系作者个人观点, 转载仅为了传达一种不同的观点 ,如果有任何异议,欢迎联系半导体行业观察。
文章来源: 半导体行业观察
- 还没有人评论,欢迎说说您的想法!
