选择合适的 IP 实现 Die-to-Die 连接

soc的发展与挑战 自大数据问世以来,设计人员在用于超大规模数据中心、人工智能 (ai) 和网络应用的片上系统 (soc) 的设计过程中,一直面临着不断发展的挑战。由于工作量需求和对于更快地移动数据的需求,此类具有先进功能的 soc 变得更加复杂,也达到了最大光罩尺寸。因此,设计人员在多芯片模块 (mcm) 封装中将 soc 划分为较小的模块。这些划分的芯片需要超短和极短距离链路,以实现具有高数据速率的芯片间连接。除了带宽之外,die-to-die 连接还必须确保是极低延迟和极低功耗的可靠链接。
本文介绍了 die-to-die 连接的几种不同用例,以及在寻找用于 die-to-die 连接的高速 phy ip 也可以使用基于有机基材的传统低成本封装。
die-to-die连接性用例 mcm 中 die-to-die 连接的新用例在不断涌现,其中包括:
1、接近最大光罩尺寸的高性能计算和服务器 soc
2、超过最大光罩尺寸的以太网交换机和网络 soc
3、可扩展复杂算法的具有分布式 sram 的人工智能 (ai) soc
高性能计算和服务器 soc 的尺寸越来越大,达到 550 平方毫米 (mm2) 至 800 mm2,从而降低了 soc 的良率并提高了单位芯片成本。优化 soc 良率的更好方法是将 soc 分为两个,或多个等效的同质芯片(如图 1 所示),并使用 die-to-die phy ip 连接芯片。在这种用例中,主要的要求是极低的延迟和零误码率,因为更小的多个芯片的表现和行为必须像单一芯片一样。
图 1:需要 die-to-die 连接的高性能计算和服务器 soc 的示例
以太网交换机 soc 是数据中心的核心,必须以 12 tbps 到 25 tbps 的更快速率转移数据,这需要 256 通道的 100g serdes 接口,因此无法将 soc 放入面积为 800 mm2 的光罩区域。为了克服这一挑战,设计人员会将 soc 拆分,重新进行配置,其中的内核芯片被 i/o 芯片包围,如图 2 所示。然后,使用 die-to-die 收发器将内核芯片连接到 i/o 芯片。
在这一用例中,仅当 die-to-die 收发器的带宽密度远远优于 i/o 芯片中的长距离 serdes 时,芯片拆分才有效。因此,关键参数是每毫米的芯片边缘带宽密度。
图 2:需要 die-to-die 连接的以太网交换机 soc 的示例
在 ai soc 中,每个芯片都包含智能处理单元 (ipu) 和位于每个 ipu 附近的分布式 sram。在这种使用情况下,一个芯片中的 ipu 可能需要依赖于极低延迟的短距离 die-to-die 链路来访问另一个芯片的 sram 中的数据。
图 3:需要 die-to-die 连接的 ai soc 示例
在所有这些用例中,如果为 die-to-die 连接选择理想的高速 phy,就可以简化 mcm 封装要求。由于每个通道的吞吐量高达 112 gbps,因此在通道数量相对有限的情况下可以实现非常高的总吞吐量。在这种情况下,封装走线的间距和堆叠可能比较保守(l/s 通常为 10u/10u)。在这些用例中,也可以使用基于有机基材的传统低成本包装。
高速phy ip对于die-to-die连接的要求 光学互联网络论坛 (oif) 正在定义电气 i/o 标准,以在超短距离 (usr) 和极短距离 (xsr) 链路上以高达 112 gbps 的数据速率进行传输。这些规范定义了 die-to-die 链路(即:在封装内),以及芯片到芯片,到与 soc 位于同一封装内的光学模块的链接,从而显著降低了功耗和复杂性,并实现了极高的吞吐量密度。
在研究用于 mcm 的 die-to-die 连接的高速 phy ip 解决方案时,soc 设计人员必须考虑几个基本功能,包括以千兆位或兆兆位每秒(gbps 或 tbps)衡量的数据吞吐量或带宽、以每比特皮焦耳 (pj/bit) 衡量的能源效率、以纳秒 (ns) 衡量的延迟、以毫米 (mm) 衡量的最大链路范围,以及误码率(无单位)。
数据吞吐量或带宽 为了实现与其他收发器的互操作,die-to-die phy ip 必须确保符合 usr 和 xsr 链路的相关 oif 电气规范。支持脉冲幅度调制 (pam-4) 和不归零 (nrz) 信令,对于满足两种链路的要求,并实现每通道最大 112 gbps 带宽至关重要。这样的信令产生了非常高的带宽效率,这是一项关键要求,因为在 mcm 中的芯片之间传输的数据量非常大。数据移动的速率通常处于每秒兆兆字节的范围,这限制了分配给 usr 和 xsr 链路的芯片边缘的大小。但是,支持多种数据速率也同样重要。通常,假设其数据速率与内部结构中使用的数据速率一致,或支持 die-to-die 协议所需的所有数据速率,就有望实现芯片到芯片链接。例如,即使在 32 gbps 这样的高速下,pci express 也必须支持低至 2.5 gbps 的数据速率以进行协议初始化。
链路距离 在 die-to-die 的实现中,大量数据必须流经桥接芯片之间间隙的短数据路径。为了保证将芯片放置在封装基板上时的最大灵活性,phy ip 必须支持 tx 和 rx 之间 50 毫米的最长距离。
能效 能效成为重要的因素,尤其是在将 soc 功能划分为多个同质芯片的用例中。在此类用例中,设计人员寻求在不影响 soc 总功耗预算的情况下,在芯片之间推送大量数据的方法。理想的 die-to-die phy ip 的能效好于每比特 1 皮焦耳 (1pj/bit) 或同等的 1mw/gbps。
延迟和ber 为了使芯片之间的连接“透明”,延迟必须维持得极低,同时必须优化误码率 (ber)。由于简化了架构,die-to-die phy ip 本身实现了超低延迟,ber 优于 10e-15。根据链路距离,可能需要使用前向纠错 (fec) 机制保护互连,以实现如此低的 ber。fec 延迟会影响解决方案的整体延迟。
宏块布局 除了这些与性能相关的参数外,phy ip 还必须支持所有侧面的放置芯片,以实现芯片和mcm 的有效布局。优化了宏的布局可实现低耦合的高效芯片间布线,优化芯片和 mcm 面积,并最终提高功耗效率。
选择 die-to-die phy ip 时,还有许多其他考虑因素,包括纳入可测试性功能,以便能够在封装之前对芯片进行生产测试,但是上文所述的因素是最重要的。
结语 数据速率不断提高,功能日趋复杂,使得超大规模数据中心、ai 和网络应用程序的 soc 大小与日俱增。随着 soc 尺寸接近占满光罩尺寸,设计人员被迫将 soc 分成较小的芯片,这些芯片封装在多芯片模块 (mcm) 中,以实现高产量并降低总体成本。然后,一个 mcm 中的多个较小芯片通过 die-to-die 互连进行链接,这些互连具有极低的功耗且每个芯片边缘的带宽都很高。在高性能计算和 ai 应用中,大型 soc 被分为两个或多个同质芯片,而在网络应用中,i/o 和网络内核被分为单独的芯片。soc 中的 die-to-die 互连必须不影响整体系统性能,并且要求低延迟、低功耗和高吞吐量。这些要求推动了对高吞吐量 die-to-die phy 的需求。例如 新思科技(synopsys) 的 designware® usr/xsr phy ip,该 ip 支持 mcm 设计中的 die-to-die 连接,每通道的数据速率高达 112 gbps,而且能效非常高。designware usr/xsr phy ip 符合用于超短距离 (usr) 和极短距离 (xsr) 链路的 oif cei-112g 和 cei-56g 标准。
新思科技(synopsys) 高级产品营销经理 manuel mota

一文带你了解什么是PLC逻辑设计法?
非屏蔽双绞线可以传输什么信号
共享经济入侵充电宝行业 共享充电宝能赚钱吗?
运动员(听觉)神经-运动反应时的测量系统
沁恒微无线充电管理芯片CH246
选择合适的 IP 实现 Die-to-Die 连接
AirPods的无线充电盒上市之日出现眉目,可能就在今年年底!
FPGA构建高性能DSP
三个电压如何判断npn还是pnp
甲骨文创始人炮轰亚马逊云:“用了必死无疑”?
利用电机控制中PLU模块与CTIMER计数器解码电机
买菜APP开发方案
一张图总结Google C++编程规范
英国小镇Hulk正在尝试推出自己的数字货币
三星将推8英寸平板电脑 剑指苹果iPad mini
LED VF值偏髙5V不亮失效分析
喜欢炫酷的伙伴们看看,这风扇够不够酷
基于单片机控制的多功能充电系统设计
USB接口WiFi模块将助力智慧安防实时高清视频数据传输
数据库为什么有可能喜欢Linux AIO(异步I/O)?