每一代 PCIe 的帶寬都會增加一倍,現在已經從 16 GT/s PCIe 4.0 變成 32 GT/s PCIe 5.0。最近發布的 0.9 版 PCIe 5.0 基本規范鎖定了針對規范的功能變更,使設計人員可以放心地著手設計。
除了帶寬加倍之外,該規范還提出了一些新功能,例如加快鏈路啟動的均衡旁路模式、有助于避免突發錯誤(可能是由更高的判決反饋均衡 (DFE) 分接比引起的)的預編碼支持,以及支持進行串擾模擬的環回增強。隨著 PCIe 5.0 技術的迅速普及,SoC 設計人員應該了解并考慮他們將面臨的一些關鍵設計挑戰,例如增多的信道損耗、復雜的控制器考量、PHY 和控制器集成、封裝和信號完整性問題以及建模和測試要求。本文概述了改用 PCIe 5.0 接口所面臨的設計挑戰,以及如何使用成熟的 IP 來成功克服挑戰。這種 IP 經過設計和測試,可滿足 32 GT/s PCIe 5.0 主要功能的要求。
將數據速率從 16 GT/s 加倍到 32 GT/s 后,奈奎斯特頻率也會加倍到 16 GHz,從而加重頻率相關的插入損耗。此外,頻率升高時增加的電容耦合會加重信號的干擾或噪聲,使串擾比 PCIe 4.0 信道中的串擾更嚴重。這些因素累積在一起,使 PCIe 5.0 信道成為 SoC 設計人員遇到的最具挑戰性的非歸零 (NRZ) 信道。
選擇的 PCB 材料(FR4、Megtron、Tachyon、iSpeed)會對各個區域的插入損耗產生巨大影響。圖 1 是一個簡單示例,顯示了 16 GT/s(8 GHz 奈奎斯特)和 32 GT/s(16 GHz 奈奎斯特)數據速率下,穿過各種 PCB 材料的 16 英寸走線的插入損耗。FR4 是一種常見且使用廣泛的材料,其插入損耗從 8GHz 奈奎斯特(第 4 代數據速率)時的 19.34 dB 增長為 16 GHz 奈奎斯特(第 5 代數據速率)時的 33.44 dB。因此,用于 PCIe 5.0 系統的 FR4 變得完全不實用,因為 16 英寸不是很長,并且電路板損耗只是總信道損耗的一小部分(PCIe 5.0 規范定義的不超過約 36 dB),并且還包括封裝、多個 PCB、連接器等?,F實中的 PCIe 5.0 系統需要比 FR4 更好的材料。
圖 1:信道材料的插入損耗從 PCIe 4.0(16 GT/s)顯著增加到 PCIe 5.0(32 GT/s)
除了信道材料之外,信道配置也會嚴重影響總插入損耗和信道的整體凹凸情況,因為每次從一種材料過渡到另一種材料時都會引起信號反射。例如,最簡單的一種信道是穿過基板或電路板的芯片到芯片接口,它不帶任何額外的連接器,可呈現平滑的插入損耗曲線。但是,在一路添加更多連接器之后,信道性能就會迅速變差。例如,現實中的芯片到芯片信道可能包含一個夾層連接器,或者是使用轉接卡和附加卡的兩個連接器,也可能是兩個以上的背板連接器和一個夾層連接器。每次將連接器添加到信道時,發送器和接收器都必須克服額外的信道損耗,并且必須能夠均衡造成主光標顯示許多單位間隔的干擾源。這通常需要復雜的多抽頭 DFE 接收器設計,加入固定和浮動抽頭,旨在完全均衡信道并在 32 GT/s 的速度下開啟眼圖。
設計人員將盡最大努力預判這些挑戰,并設計一個具有足夠裕量的穩健系統,保證實現無錯數據傳輸。設計 PCIe 5.0 時,設計人員必須能夠利用 PCIe 4.0 規范中引入的 RX 通路裕量來評估實際系統中的實際接收器容限。雖然 PCIe 4.0 規范僅需要在時序(水平眼圖開度)上使用 RX 通路裕量,但 PCIe 5.0 規范 (32 GT/s) 也需要將 RX 通路裕量用于電壓(眼高)以幫助確保系統的穩定性。
配置 PCIe 5.0 控制器時,數據有效負載大小 對于優化性能和吞吐量具有重要意義。由于每個分組的開銷都相對固定,通常每個事務層分組 (TLP) 大約占用 20 到 24 個字節,小的有效載荷表現低效,因此控制器必須盡量留出足夠大的有效載荷來滿足必要的吞吐量。PCIe 規范定義的有效載荷高達 4096 字節,而行業平均值通常僅為 256 字節。但是,設計人員需要為其目標應用選擇合適的最大有效載荷,以實現 PCIe 5.0 控制器的理想性能水平,同時還要了解 PCIe 鏈路合作伙伴支持的有效載荷的潛在范圍。設計人員還必須明白,確定可實現的吞吐量時必須考慮 TLP 標頭開銷:LCRC、序列和成幀、潛在的 ECRC,以及 128b/130b 編碼造成的損耗。
為了在 PCIe 5.0 系統中實現最佳性能,設計人員必須確定等待的未發布請求 (NPR) 的最大數量,并確保提供足夠數量的標簽。標簽數量是控制器的一個屬性,因此必須根據系統要求正確設定數量。最新版本的 PCIe 5.0 規范支持使用 10 位標簽,該標簽最多可支持 768 個唯一標簽(由于保留了一些位值,因此預期限值為 1024)。選擇的標簽太少就會對性能產生負面影響。隨著總往返傳輸時間或延遲的增加,在 32 GT/s 的速度下保持系統最佳性能所需的標簽數量也會增多。所需的標簽數量還會受到保持最大吞吐量所需的有效載荷和最小讀取請求大小的影響。PCIe 5.0 所需的標簽數量也更大,因為在 32 GT/s 時系統吞吐量更高。
圖 2:實現 PCIe 4.0 和 PCIe 5.0 鏈路最大吞吐量所需的標簽數量
理想的情況是由同一家供應商實現完整的 PHY 和控制器 IP 解決方案。在混合和匹配不同供應商的解決方案時,設計人員必須考慮某些集成難題。英特爾已經為 PCIe (PIPE) 定義了一個稱為 PHY 接口的規范來幫助實現這種集成,但由于 PIPE 規范發生了更改,所以務必要了解該接口及其實現的詳情。PIPE 4.4.1 接口不明確支持 PCIe 5.0 技術,因為它要處理更高的速度,就需要追加寄存器位。如果設計人員期望使用這個版本的 PIPE 規范,設計人員和 IP 供應商就必須處理許多技術細節,這可能很麻煩。新的 PIPE 5.1.1 規范為 PCIe 5.0 技術提供了第一個真正的支持。它具有許多新功能,設計人員必須全面了解:
低引腳數接口將以前的帶外引腳改為寄存器位,從而簡化了 PHY 控制器接口。最初引入這個概念是為了采用一組數量有限的引腳來傳輸 PCIe 4.0 RX 通路裕量信號,而后它在 PIPE 5.1.1 中得到極大的擴展,提供了大幅簡化的接口。
始終都要權衡數據路徑寬度和 PIPE 接口處時序收斂的頻率。設計人員擁有的 PCIe 4.0 的一些選項在 PCIe 5.0 上可能不再可用。在 32 GT/s 時,PIPE 接口必須至少為 32 位寬,以避免超過 1GHz 的時序收斂。64 位 PIPE 接口可以作為一個選項,支持在 500 MHz 時的時序收斂,但它不適合最寬的接口。要想理解這一點,請考慮表 1 中所示的一些配置。對于 32 GT/s 時的 PCIe 5.0,可以排除 16 位 PIPE,因為它需要 2GHz 的時序收斂,這一頻率極難甚至不可能達到。這樣還剩下 32 位或 64 位 PIPE 選項。但是,如果設計人員通過實現 x16 鏈路來利用最大可用吞吐量,那么就只剩下一個選項了:具有 32 位 PIPE 接口和 1GHz 時序收斂的 512 位控制器。否則,就需要 1024 位控制器架構,目前任何 IP 供應商都無法供應該架構。
表格 1:收斂時序時,關鍵是要在速度和寬度之間達成可以實現的權衡
因此,對于按照 32 GT/s 運行的 x16 鏈路,必須使用 512 位控制器,這使得設計人員必須使用經過硅驗證和測試的 512 位控制器 IP 架構。改用 512 位架構還意味著每個時鐘周期都可以有多個數據包。這意味著控制器架構必須能夠正確處理 TLP 的序列化和排序,避免給設計人員的應用邏輯帶來不必要的復雜性。這就需要采用經過驗證的 512 位解決方案,最好是利用標準庫(而不是昂貴的高速庫)在 1GHz 的頻率時,在 PIPE 接口成功展示時序收斂的解決方案。
為保證封裝和信號完整性,必須設定并滿足新的插入損耗和串擾規范,以適應更快的 32 GT/s 數據速率和 16 GHz 奈奎斯特頻率。必須在封裝外形中細致處理走線長度和布線,以避免串擾沖突并滿足新的插入損耗和串擾規范。配電也是一個重要因素,因為 32 GT/s 設計需要在封裝時降低電感。由于浪涌電流 (di/dt) 增大,必須降低電感才能將電壓噪聲保持在同等水平。
32 GT/s 數據速率下的反射和串擾問題更加突出,而且必須仔細分析垂直互連訪問等信號路徑中的所有不連續性。垂直互連訪問包括 VIA、球柵陣列 (BGA) 球、連接器、隔直電容等。VIA 區域中的發送器和接收器布線如果不恰當,就會增加相鄰信號或通路之間的串擾。設計人員必須盡量保持走線的最大間距,確保即便在如此擁擠的 VIA 區域也能避免串擾。
隨著數據速率的提高,所需電源電流的幅度和頻率也會增加,但維持穩定供電電壓的難度仍然基本相同。例如,一條通路中的電源狀態變化會為另一條在連續發射模式下運行的通路產生浪涌電流,從而產生很大的供電電壓峰值。設計人員必須能夠對電力傳輸網絡進行適當的分析,以便:
利用足夠的去耦電容和封裝/電路板電感,驗證所有通路的噪聲是否符合交流紋波規范
檢查板載濾波器組件是否具有效果最好的頻率響應,并能根據需要進行改進
確認一條通路中的模式變更不會影響另一條通路中的操作
了解封裝和信號完整性問題,并在必要時與在設計封裝和電路板方面經驗豐富的公司合作實現高數據速率
圖 3:要在系統仿真期間獲得準確結果,必須構建 IBIS-AMI 模型
對于量產設備,在 32 GT/s 速率下的制造測試需要能夠驗證鏈路的快速測試。此類測試通常使用內置環回模式、圖形發生器和接收器(集成在 PHY 和控制器 IP 中)。一些測試設置也可以利用通常并入 PCIe 5.0 PHY IP 的內置示波器功能。應當利用 PCIe 控制器 IP 解決方案的內置調試、錯誤注入和統計功能來完成穩定的系統測試。這有助于確保固件和軟件正確預測可能遇到的任何潛在的實際系統問題。
對于 PHY 測試,如果設計人員需要詳細了解 32 GT/s PHY 的性能,通常會使用高速示波器來測量 TX 抖動和其他參數。改用 32 GT/s 意味著示波器帶寬也需要提高,但要提高多少呢? 即便信號上升時間會催生這一要求,但實際的 PHY 通常也會有一些上升時間限制,以便保證電源具有實用性。因此,50 GHz 示波器通常就具有足夠的帶寬,可以正確分析 32 GT/s 信號1。
隨著 32 GT/s PCIe 5.0 技術的加速采用,SoC 設計人員必須在轉換時了解并應對一些設計挑戰。32 GT/s 設計具有極具挑戰性的 NRZ 信道,這些信道具有極高的損耗和波動性,引發大量的不連續性,致使插入損耗高達 36dB 以上。PCIe PHY 設計必須包含獨特的架構,配備經過驗證的模擬前端、連續時間線性均衡器和先進的多抽頭決策反饋均衡器,可以無縫協作以緩解設計問題。PHY 和控制器的集成需要更仔細的規劃,才能確保 PIPE 接口的兼容性,并且方便完成 1GHz 時的時序收斂。
為了實現最高性能,必須仔細選擇和管理幾個 PCIe 5.0 控制器配置選項。應探索進行架構權衡,平衡最大有效載荷大小、讀取請求大小、標簽數量和其他重要的控制器配置設置。
必須對芯片和封裝進行仔細的信號和電源完整性分析,并且必須仿真整個信道,確保在 32 GT/s 時達到性能目標。
通過與 Synopsys 合作,可以緩解甚至消除這些新難題,Synopsys 是一個久經考驗且值得信賴的 IP 合作伙伴,擁有多年成功開發優質 PCIe IP 的業績記錄。適用于 PCIe 5.0 的 Synopsys DesignWare® IP 全套解決方案包含控制器、PHY 和驗證 IP。經過硅驗證的 IP 支持 PIPE 4.4.1 和 5.1.1 規范,使用的架構可承受超過 36dB 的信道損耗,并能直接實現 1GHz 的時序收斂。這種控制器具有高度可配置性,支持多種數據路徑寬度,包含經過硅驗證和測試的 512 位架構,并具有業界最廣泛的 RAS-DES 功能,可實現無縫啟動和調試。這種經過硅驗證的解決方案已被眾多客戶采用,可提供準確仿真 PCIe 系統所需的完整 IBIS-AMI 模型。