
为了降低每比特能耗并提高带宽,人工智能数据中心开始用共封装光器件取代铜线。
使用CPO的优势在于,它可以将光连接更靠近ASIC、GPU或CPU,从而减少对长而低效的电线的需求。虽然CPO本身并非低功耗,但它能提供极低的每比特传输能耗——这是衡量数据中心效率的关键指标。
CPO 没有采用传统的远距离可插拔收发器,而是将光子引擎直接集成到同一封装基板上或同一模块内,使得电信号在多芯片组件中只需传输几毫米,而不是像通常那样从芯片到前面板需要通过 PCB 传输 15 到 30 厘米。
这是人工智能发展中至关重要的一环。据麦肯锡公司预测,到2030年,满足全球人工智能需求将需要5.2万亿美元的数据中心投资。因此,解决电力和带宽挑战对于确保超大规模企业获得最佳投资回报至关重要。在采用CPO(计算机化产品)方面处于领先地位的公司包括博通、英伟达、英特尔、Marvell和Ayar Labs,它们拥有各种技术和产品,并由GlobalFoundries、IBM、英特尔晶圆代工、Tower Semi和台积电等代工厂提供支持。EDA工具供应商Cadence、Keysight EDA、西门子EDA和Synopsys也纷纷推出了CPO工具。
“超大规模数据中心正在引领我们所看到的变革,”西门子EDA高级总监Tony Mastroianni指出。“异构集成使我们能够突破摩尔定律的限制。虽然我们使用硅中介层已有十余年,但其尺寸受到限制。然而,新型有机和玻璃中介层正在涌现,它们能够实现全面板尺寸的基板,从而容纳大量的硅,甚至达到一米乘一米的超大尺寸。人工智能的需求加剧了对性能的追求,而效率往往被置于次要地位。如今,实现如此高的性能需要巨大的功率,堪比核反应堆,这使得能耗成为一个关键挑战。I/O带宽是另一个主要问题,而这些正是CPO能够有效解决的问题。”
其他人也认同这一观点。Synopsys公司产品营销高级总监Marc Swinnen表示:“选择共封装光学器件是因为它们具有高带宽和低功耗,尽管它们总体上并非低功耗技术。激光器的硬件效率很高,但环形谐振器需要通过小型加热器持续加热以维持光子集成电路的温度。虽然总功耗并不低,但每比特能量很低(以皮焦耳为单位),因此从带宽角度来看,它是一种高效的器件。”

图 1:模拟环形谐振器
CPO 的基本原理
对于芯片架构师和工程师来说,CPO 涉及很多方面。
“任何在数据传输中审视系统架构(即整个系统)的人,都需要根据其他重要因素来考虑将要使用的技术类型,”是德科技EDA高速数字设计部门负责人李熙洙(Hee-Soo Lee)指出。“例如,比特/焦耳(bpJ)是指产生一位数据传输所消耗的能量。人工智能数据中心耗电量巨大,因此实现低功耗极具挑战性,因为电流消耗非常高。对于为人工智能数据中心设计计算节点的客户而言,一个两英寸见方的芯片就能消耗近35,000安培的电流。考虑到如此高的电压,功耗也十分惊人——每个芯片高达35千瓦。在先进封装设计(包括但不限于CPO)中,管理如此高的功耗是一项重大挑战。考虑到可能有数百万个这样的芯片,满足它们的能源需求可能需要建造专用发电厂,因为现有的解决方案不足以应对。”
DSP芯片是系统中功耗最高的组件之一,因此设计人员通常会尽量减少它们的使用。“这种转变促使人们探索CPO技术,该技术允许直接将信号转换为光信号,而无需依赖传统的DSP或ASIC芯片,从而提高效率,”Lee说道。“从系统架构师的角度来看,这带来了挑战,因为芯片设计现在必须同时考虑电学和光学因素。人们对EO、OE和eOe系统(即电信号和光信号之间的转换)的兴趣日益浓厚。归根结底,这些发展是由人工智能数据中心对电力的巨大需求所驱动的,因此向更高效解决方案的过渡也就不足为奇了。”
与此同时,驱动EIC和PIC之间信号所需的功率也引发了一些担忧。“这些系统需要专门的电压控制电路来驱动电流进入环路,从而产生热量,”Synopsys首席产品经理Lang Lin指出。“这个过程本质上是通过施加功率来引起温度变化,这可能需要大量的能量。每个环路可能消耗大约1到10毫瓦的功率。虽然目前的系统可能使用大约64个环路,但有报告——例如来自DARPA的项目——讨论了在未来的设计中集成数千个环路的可能性。将光子电路扩展到这种规模,将接近目前晶体管数量的水平,环路的数量可能达到数百甚至数千个。”
为这些环形电路供电成为一项重大挑战。“例如,为1000个每个功率为1毫瓦的环形电路供电,总共需要大约1瓦的功率,”林说道。“额外的电路,例如带有众多放大器的集成电路(EIC),会进一步增加功耗,GPU和CPU等辅助组件也是如此,它们的功耗仍然相当可观。由于数据传输速率高,I/O功耗也相当可观,可能占总功耗的50%甚至更多。随着系统规模的不断扩大,确保充足的电力供应将始终是一个至关重要的问题。”
与互连铜基板相比,这种封装尺寸要小得多,但供电仍然是一个挑战。“传统上,稳压器被放置在封装或PCB上,但现在通常将其集成到芯片上,作为集成稳压器(IVR)。对于电路、光子学和电子元件等具有不同电压的各种电源领域,可能需要多个IVR。因此,这种复杂的系统在供电方面带来了巨大的挑战,”林说道。
CPO 机制
CPO 方法利用两个芯片——一个位于底部并直接安装在基板上的光子器件,以及一个堆叠在上面的微型 SerDes,形成 3D 芯片配置。
西门子马斯特罗亚尼表示:“该组件通过物理方式连接到中间层上,中间层可以是硅材质,但通常用于尺寸较大的基板,因为布线要求更高。光纤直接连接到封装内的光子器件,这正是CPO的精髓所在。通过这种方式集成光纤,可以有效解决电源问题,使SerDes能够与芯片高效通信。虽然将SerDes放置在底部似乎合乎逻辑,因为它与芯片通信,但机械结构的限制要求光子器件必须位于基板上。位于上方的SerDes使用TSV(硅通孔)将信号传输到光子器件,从而实现跨基板的通信,类似于硅中间层。其他类型的中间层,例如有机桥接层或玻璃,也提供了有趣的可能。”

图 2:多芯片组件中光波导的位置
CPO 设计虽然显著降低了芯片上的 I/O 功耗,但晶体管的处理功耗保持不变。“此前的解决方案,例如 HBM,已经解决了内存功耗和 I/O 问题,而 CPO 现在则着重解决与 I/O 相关的功耗和带宽挑战。数据通过多个通道(通常在光纤内有 8 到 16 个通道)输出芯片,从而在低功耗下提供卓越的带宽。该方案需要激光光源,目前正在进行的研究旨在将其集成到芯片本身。此外,CPO 通过消除对大量封装引脚的需求,缓解了传统 SerDes 的拥塞问题,从而释放出用于供电(包括背面供电)的引脚。虽然该方案并非普遍适用,但它代表着一项重大进步,尤其对于构建巨型芯片的超大规模数据中心而言,”他说道。
CPO设计挑战
CPO超越了传统的纯电学范畴,将光学元件直接集成到高性能ASIC、CPU或GPU中。这反过来又需要一种专门的光电设计方法来管理单个封装中光和电的物理和功能融合。
对于芯片架构师和设计师来说,有很多领域的技能需要提升:
异构芯片集成。设计人员需要采用基于芯片的架构,为计算、存储和光子学等应用创建更小巧、更专业的芯片。诸如台积电的 COUPE 或英特尔的 Foveros 等先进封装技术将用于在同一系统中互连这些不同的材料。
消除信号瓶颈。由于光子引擎直接放置在 ASIC 旁边,因此省去了耗时的长铜线,这可以节省高达 30% 的系统总功耗。
热光协同设计。光子元件对温度高度敏感,因此设计团队必须进行复杂的多物理场仿真,以控制高功率计算芯片的热流,防止其导致光学器件出现波长漂移或对准误差。
硅光子学发展。设计人员需要利用标准CMOS制造技术,在硅衬底上制造光子集成电路(PIC),将调制器、探测器和波导集成到硅衬底上。
激光源管理。架构师和设计人员必须决定是将激光器直接集成到芯片上,还是将其置于芯片外部。由于激光器通常是整个电路中最不可靠的组件,设计人员可以选择冗余激光器设计或集成监控来确保可靠性。
在所有这些过程中,芯片组/多芯片设计将发挥至关重要的作用,因为SoC被分割成多个更小的芯片,并集成到单个封装中。“将采用不同工艺节点制造的芯片组合在单个封装内,也称为异构集成,可以优化成本和功耗,”Presto Engineering的新产品导入封装经理Raj Pugo表示。“可插拔收发器是一种能够将电信号转换为光信号,反之亦然的模块。它通常由跨阻放大器(TIA)、驱动器、激光器和光电二极管组成。这些组件的集成构成了光引擎(OE)。CPO指的是将GPU或ASIC与光引擎的所有组件集成在单个封装内。换句话说,CPO是将计算芯片(GPU/ASIC)和光引擎组件(OE)异构集成到单个封装中。”
CPO面临的挑战与进展
CPO引入了一系列多物理场挑战。光子信号会因温度变化而漂移,材料也会直接影响光传播。波导可能存在不规则性,其程度大致相当于电子信号的线边缘粗糙度。所有这些都需要与系统设计的其他部分一起考虑,而不是孤立地看待。

图 3:光波导仿真
Synopsys公司的林表示:“我们需要所有工具协同工作,利用热应力变形曲线并将其应用于光路性能仿真。以前,这完全依赖于经验数据,但现在我们的仿真结果与实际系统测量直接相关。”
这种整合是必要的,因为在模拟中,区分哪些影响是棘手的,哪些可以忽略不计至关重要。有时,被忽略的影响可能比预期的更大,因此应该将其纳入建模过程。
大型EDA公司正将目光转向这一领域。其中一项重要进展是:
Cadence正与光子超级计算机开发商Lightmatter合作,开发将Cadence高速SerDes IP与Lightmatter光引擎集成的CPO解决方案。两家公司致力于与先进节点CMOS技术和标准封装流程的集成,为下一代人工智能和高性能计算环境中高性能、可量产的CPO铺平道路。此外,Cadence还与Tower Semiconductor合作,创建了一种异构集成流程,支持使用Tower技术的PIC/EIC子系统的芯片到晶圆和晶圆到晶圆应用。
Keysight EDA 于 2025 年 10 月完成了对 Synopsys 光学解决方案业务的收购,并将先进的光学仿真工具集成到 Keysight 现有的 EDA 工具中。随后,Keysight EDA 发布了一款用于芯片和 3D-IC 设计的软件工具,用于仿真和验证共封装的光子学和电子学器件。
西门子EDA近期收购了Canopus AI,旨在将人工智能驱动的计量和检测功能集成到其EDA产品组合中,从而通过提高复杂光子集成电路(PIC)的精度和良率,直接影响CPO(集成电路制造)的生产。此外,今年1月,西门子还扩大了与英伟达的合作,将GPU加速功能集成到其EDA工具中,专门针对CPO所需的高密度互连的验证和布局优化。
Synopsys正与Lightmatter合作,两家公司致力于优化电光接口。Synopsys继续与台积电合作,并已扩大与英伟达的合作关系,利用英伟达的GPU加速计算来加速光学仿真和工程工作流程。
CPO 的下一步发展方向
为了使 CPO 更普及,一些高级封装问题需要解决。
Presto公司的Pugo指出:“与传统封装方式相比,CPO具有更高的带宽密度、更低的功耗和更小的延迟,这使其成为下一代人工智能解决方案的关键所在。2.5D封装是CPO的基础,它能够将光子集成电路和电子集成电路与GPU或ASIC集成在一起。主要挑战包括GPU/ASIC附近的散热(例如液冷冷板、微流控芯片、微通道散热器等先进的散热管理技术)、实现更高精度的光耦合、提高激光器可靠性、提高制造良率以及降低制造成本。其他挑战还包括促进CPO模块外形尺寸的标准化、改进测试和验证的自动化以及确保光引擎(OE)在发生故障时的可维护性。应对这些挑战将有助于CPO在整个行业得到更广泛的应用。”
从物理学的角度来看,分析封装结构揭示了复杂的信息流。“数据通过光纤电缆传输,光纤电缆连接到微透镜,微透镜将光聚焦到配备光栅的光子集成电路(PIC)上,”Synopsys公司的Swinnen解释道。“光栅将入射光转换为电信号,之后PIC对这些信号进行初步处理。在这个阶段,PIC与电子集成电路(EIC)协同工作。微透镜将光导向PIC,光在PIC中进行处理并转换为电信号,随后传输到EIC进行进一步的电子处理。最后,该接口连接到外部系统,从而完成信息传输路径。”
光子集成电路中波导的折射率对温度高度敏感,这会影响其性能。“为了解决这个问题,系统会被加热到一个稳定的高温——大约100度——这样微小的温度波动就可以忽略不计。虽然内置加热器可以维持这种稳定性,但热量仍然会通过电子集成电路散发,因此热管理至关重要。”斯温宁说道。
系统集成也会受到影响,因为由光链路构成的光子电路对温度变化高度敏感。因此,必须设计多芯片复合光子器件(CPO),以确保所有元件在其合适的温度范围内工作,且不会产生过度耦合。
结论
对于超大型人工智能芯片而言,功耗和带宽(而非计算能力)如今已成为限制因素。传统的高速电信号串行器/解串器(SerDes)功耗极高,因为数据必须从封装外部传输到各个电路板上。CPO 通过在封装内部用光路取代长距离的电路来直接解决这个问题。这样一来,光子器件与计算硅集成在一起,使得数据几乎可以立即通过光路离开芯片,从而在提供巨大带宽的同时,将 I/O 功耗降低几个数量级。与此同时,这还通过减少大量高速电 I/O 引脚来释放封装资源,减少拥塞,允许更多引脚用于供电,并支持背面供电等先进技术。
此外,虽然存在热学和机械方面的挑战,但这些挑战是可以克服的。光子器件对温度和潜在的应力非常敏感,但问题不在于原始的发热量,而在于温度稳定性。这些挑战可以通过温度控制回路、精心的布局规划和应力感知封装等设计技术来解决,从而使CPO成为可能。虽然目前并非所有芯片都适用CPO,但对于大型、高I/O的AI系统而言,它几乎是必不可少的,因为它从根本上改变了人工智能系统的可能性,使原本难以控制的功耗和带宽需求变得可控。
*免责声明:文章内容系作者个人观点, 转载仅为了传达一种不同的观点,如果有任何异议,欢迎联系删除。
文章来源: 半导体行业观察
- 还没有人评论,欢迎说说您的想法!
