选择合适的 IP 实现 Die-to-Die 连接

soc的发展与挑战自大数据问世以来，设计人员在用于超大规模数据中心、人工智能（ai）和网络应用的片上系统（soc）的设计过程中，一直面临着不断发展的挑战。由于工作量需求和对于更快地移动数据的需求，此类具有先进功能的 soc 变得更加复杂，也达到了最大光罩尺寸。因此，设计人员在多芯片模块（mcm）封装中将 soc 划分为较小的模块。这些划分的芯片需要超短和极短距离链路，以实现具有高数据速率的芯片间连接。除了带宽之外，die-to-die 连接还必须确保是极低延迟和极低功耗的可靠链接。
本文介绍了 die-to-die 连接的几种不同用例，以及在寻找用于 die-to-die 连接的高速 phy ip 也可以使用基于有机基材的传统低成本封装。
die-to-die连接性用例 mcm 中 die-to-die 连接的新用例在不断涌现，其中包括：
1、接近最大光罩尺寸的高性能计算和服务器 soc
2、超过最大光罩尺寸的以太网交换机和网络 soc
3、可扩展复杂算法的具有分布式 sram 的人工智能（ai） soc
高性能计算和服务器 soc 的尺寸越来越大，达到 550 平方毫米（mm2）至 800 mm2，从而降低了 soc 的良率并提高了单位芯片成本。优化 soc 良率的更好方法是将 soc 分为两个，或多个等效的同质芯片（如图 1 所示），并使用 die-to-die phy ip 连接芯片。在这种用例中，主要的要求是极低的延迟和零误码率，因为更小的多个芯片的表现和行为必须像单一芯片一样。
图 1：需要 die-to-die 连接的高性能计算和服务器 soc 的示例
以太网交换机 soc 是数据中心的核心，必须以 12 tbps 到 25 tbps 的更快速率转移数据，这需要 256 通道的 100g serdes 接口，因此无法将 soc 放入面积为 800 mm2 的光罩区域。为了克服这一挑战，设计人员会将 soc 拆分，重新进行配置，其中的内核芯片被 i/o 芯片包围，如图 2 所示。然后，使用 die-to-die 收发器将内核芯片连接到 i/o 芯片。
在这一用例中，仅当 die-to-die 收发器的带宽密度远远优于 i/o 芯片中的长距离 serdes 时，芯片拆分才有效。因此，关键参数是每毫米的芯片边缘带宽密度。
图 2：需要 die-to-die 连接的以太网交换机 soc 的示例
在 ai soc 中，每个芯片都包含智能处理单元（ipu）和位于每个 ipu 附近的分布式 sram。在这种使用情况下，一个芯片中的 ipu 可能需要依赖于极低延迟的短距离 die-to-die 链路来访问另一个芯片的 sram 中的数据。
图 3：需要 die-to-die 连接的 ai soc 示例
在所有这些用例中，如果为 die-to-die 连接选择理想的高速 phy，就可以简化 mcm 封装要求。由于每个通道的吞吐量高达 112 gbps，因此在通道数量相对有限的情况下可以实现非常高的总吞吐量。在这种情况下，封装走线的间距和堆叠可能比较保守（l/s 通常为 10u/10u）。在这些用例中，也可以使用基于有机基材的传统低成本包装。
高速phy ip对于die-to-die连接的要求光学互联网络论坛（oif）正在定义电气 i/o 标准，以在超短距离（usr）和极短距离（xsr）链路上以高达 112 gbps 的数据速率进行传输。这些规范定义了 die-to-die 链路（即：在封装内），以及芯片到芯片，到与 soc 位于同一封装内的光学模块的链接，从而显著降低了功耗和复杂性，并实现了极高的吞吐量密度。
在研究用于 mcm 的 die-to-die 连接的高速 phy ip 解决方案时，soc 设计人员必须考虑几个基本功能，包括以千兆位或兆兆位每秒（gbps 或 tbps）衡量的数据吞吐量或带宽、以每比特皮焦耳（pj/bit）衡量的能源效率、以纳秒（ns）衡量的延迟、以毫米（mm）衡量的最大链路范围，以及误码率（无单位）。
数据吞吐量或带宽为了实现与其他收发器的互操作，die-to-die phy ip 必须确保符合 usr 和 xsr 链路的相关 oif 电气规范。支持脉冲幅度调制（pam-4）和不归零（nrz）信令，对于满足两种链路的要求，并实现每通道最大 112 gbps 带宽至关重要。这样的信令产生了非常高的带宽效率，这是一项关键要求，因为在 mcm 中的芯片之间传输的数据量非常大。数据移动的速率通常处于每秒兆兆字节的范围，这限制了分配给 usr 和 xsr 链路的芯片边缘的大小。但是，支持多种数据速率也同样重要。通常，假设其数据速率与内部结构中使用的数据速率一致，或支持 die-to-die 协议所需的所有数据速率，就有望实现芯片到芯片链接。例如，即使在 32 gbps 这样的高速下，pci express 也必须支持低至 2.5 gbps 的数据速率以进行协议初始化。
链路距离在 die-to-die 的实现中，大量数据必须流经桥接芯片之间间隙的短数据路径。为了保证将芯片放置在封装基板上时的最大灵活性，phy ip 必须支持 tx 和 rx 之间 50 毫米的最长距离。
能效能效成为重要的因素，尤其是在将 soc 功能划分为多个同质芯片的用例中。在此类用例中，设计人员寻求在不影响 soc 总功耗预算的情况下，在芯片之间推送大量数据的方法。理想的 die-to-die phy ip 的能效好于每比特 1 皮焦耳（1pj/bit）或同等的 1mw/gbps。
延迟和ber 为了使芯片之间的连接“透明”，延迟必须维持得极低，同时必须优化误码率（ber）。由于简化了架构，die-to-die phy ip 本身实现了超低延迟，ber 优于 10e-15。根据链路距离，可能需要使用前向纠错（fec）机制保护互连，以实现如此低的 ber。fec 延迟会影响解决方案的整体延迟。
宏块布局除了这些与性能相关的参数外，phy ip 还必须支持所有侧面的放置芯片，以实现芯片和mcm 的有效布局。优化了宏的布局可实现低耦合的高效芯片间布线，优化芯片和 mcm 面积，并最终提高功耗效率。
选择 die-to-die phy ip 时，还有许多其他考虑因素，包括纳入可测试性功能，以便能够在封装之前对芯片进行生产测试，但是上文所述的因素是最重要的。
结语数据速率不断提高，功能日趋复杂，使得超大规模数据中心、ai 和网络应用程序的 soc 大小与日俱增。随着 soc 尺寸接近占满光罩尺寸，设计人员被迫将 soc 分成较小的芯片，这些芯片封装在多芯片模块（mcm）中，以实现高产量并降低总体成本。然后，一个 mcm 中的多个较小芯片通过 die-to-die 互连进行链接，这些互连具有极低的功耗且每个芯片边缘的带宽都很高。在高性能计算和 ai 应用中，大型 soc 被分为两个或多个同质芯片，而在网络应用中，i/o 和网络内核被分为单独的芯片。soc 中的 die-to-die 互连必须不影响整体系统性能，并且要求低延迟、低功耗和高吞吐量。这些要求推动了对高吞吐量 die-to-die phy 的需求。例如新思科技（synopsys）的 designware® usr/xsr phy ip，该 ip 支持 mcm 设计中的 die-to-die 连接，每通道的数据速率高达 112 gbps，而且能效非常高。designware usr/xsr phy ip 符合用于超短距离（usr）和极短距离（xsr）链路的 oif cei-112g 和 cei-56g 标准。
新思科技（synopsys）高级产品营销经理 manuel mota

一文带你了解什么是PLC逻辑设计法？
非屏蔽双绞线可以传输什么信号
共享经济入侵充电宝行业共享充电宝能赚钱吗？
运动员(听觉)神经-运动反应时的测量系统
沁恒微无线充电管理芯片CH246
选择合适的 IP 实现 Die-to-Die 连接
AirPods的无线充电盒上市之日出现眉目,可能就在今年年底！
FPGA构建高性能DSP
三个电压如何判断npn还是pnp
甲骨文创始人炮轰亚马逊云:“用了必死无疑”？
利用电机控制中PLU模块与CTIMER计数器解码电机
买菜APP开发方案
一张图总结Google C++编程规范
英国小镇Hulk正在尝试推出自己的数字货币
三星将推8英寸平板电脑剑指苹果iPad mini
LED VF值偏髙5V不亮失效分析
喜欢炫酷的伙伴们看看，这风扇够不够酷
基于单片机控制的多功能充电系统设计
USB接口WiFi模块将助力智慧安防实时高清视频数据传输
数据库为什么有可能喜欢Linux AIO（异步I/O）?