• <wbr id="a4kgy"></wbr>

        PCIe如何幫助構建ML加速器?

        2022-01-13 12:18:44 來源:EETOP
        機器學習 (ML),尤其是基于深度學習 (DL) 的解決方案,正在滲透到我們個人和商業生活的方方面面。基于機器學習的解決方案可以在農業、媒體和廣告、醫療保健、國防、法律、金融、制造和電子商務中找到。就個人而言,當我們閱讀推送新聞、播放我們的推薦音樂、在我們的網站購物以及當我們與Siri 交談時,ML 會觸及我們的生活。
        由于機器學習技術在商業和消費者用例中的廣泛使用,很明顯,為ML 應用提供高性能和降低總運營成本的系統將對部署此類應用程序的客戶非常有吸引力。因此,高效處理ML 工作負載的芯片市場快速增長。
        對于數據中心等一些市場,這些芯片可以是離散的ML 加速器芯片。鑒于潛在市場,離散ML 加速器市場競爭激烈也就不足為奇了。在本文中,我們將概述離散ML 加速器芯片供應商如何利用PCIe 技術使他們的產品在競爭異常激烈的市場中脫穎而出。

        利用 PCIe 制造滿足客戶需求的 ML 加速器芯片

        除了為盡可能廣泛的機器學習用例集提供每瓦每美元的最佳性能外,在競爭激烈的ML 加速器市場中,還有一些功能可以作為賭注。首先,加速器解決方案必須能夠連接到盡可能多的來自不同供應商的計算芯片。選擇廣泛采用的芯片芯片互連協議(例如PCI Express (PCIe))作為加速器/計算芯片互連解決方案將自動確保加速器可以連接到幾乎所有可用的計算芯片。
        其次,加速器必須易于使用Linux 和 Windows 等標準操作系統進行發現、編程和管理。使加速器成為 PCIe 設備可以自動使用為 PCIe 設備定義的枚舉流來發現它,并使用標準操作系統使用通用的編程模型進行配置和管理。通常,供應商必須為其加速器產品提供設備驅動程序。為PCIe 設備開發驅動程序是眾所周知的,并且有大量的開源代碼和信息可供供應商用于驅動程序開發。這降低了供應商產品的開發成本和上市時間。
        應用軟件必須能夠以最少的軟件開發工作量和成本使用加速器。通過將加速器轉變為 PCIe 設備,可以立即部署用于訪問和使用 PCIe 設備的眾所周知的穩健軟件方法。
        隨著云計算的普及,很大一部分基于ML 的應用程序作為虛擬機實例或容器托管在云上。通過訪問ML 推理或訓練加速器,可以提高這些虛擬機或容器的性能。因此,如果可以將ML 加速器虛擬化,使其加速能力可供多個VM 或容器使用,那么它在市場上的吸引力就會提高。
        設備虛擬化的行業標準是基于PCIe 技術的:SR-IOV。此外,由于提供的高性能,直接將 PCIe 設備功能分配給 VM 得到廣泛支持和使用。因此,通過為其加速器實施PCIe 架構,供應商可以解決需要高性能虛擬化加速器的細分市場。

        訓練

        在機器學習模型可以在生產中部署之前,它們必須經過訓練。ML的訓練過程,尤其是深度學習,涉及將大量訓練樣本輸入到正在訓練的模型中。
        在大多數情況下,這些樣本需要從存儲系統或網絡中獲取或流式傳輸。因此,訓練到可接受的預測或準確性水平的時間將受到 ML 加速器和存儲系統或網絡接口之間鏈路的帶寬和延遲屬性的影響。訓練時間越短,加速器解決方案對客戶來說就越好。
        加速器可以通過使用PCIe 技術的點對點流量功能直接從存儲設備或網絡流式傳輸數據,從而潛在地縮短訓練時間。以這種方式使用點對點功能可以通過避免在主機計算系統的內存中為訓練樣本來回調度來提高性能。
        此外,大多數高性能存儲節點和網絡接口卡(NIC) 使用基于 PCIe 協議的鏈路連接到系統中的其他組件。因此,通過選擇成為符合 PCIe 的設備,加速器可以啟用與大多數存儲和 NIC 的本地對等流量。
        PCIe 架構的點對點功能在機器學習的推理和生成方面也很有用。例如,在自動駕駛中的對象檢測等應用中,需要以盡可能低的延遲將恒定的攝像頭輸出流饋送到推理加速器。在這種情況下,點對點功能可用于以最小延遲將相機數據流式傳輸到推理加速器。
        機器學習加速器芯片與計算芯片、存儲卡、交換機和網卡之間的高帶寬連接要求需要高數據速率的串行傳輸。隨著數據速率的提高以及芯片之間的距離擴大或保持不變,需要先進的PCB 材料和/或范圍擴展解決方案(例如重定時器)來保持在通道插入損耗預算范圍內。
        重定時器完全在 PCIe 規范中定義,可以支持廣泛的復雜電路板設計和系統拓撲。因此,使加速器成為PCIe 設備使加速器供應商能夠利用PCIe 技術生態系統在各種客戶板設計和系統拓撲中實現必要的高數據速率串行傳輸。  

        復雜模型的多個加速器

        自然語言處理等機器學習領域的領先優勢正在轉向像GPT-3(具有 1750 億個參數)這樣的極其龐大和復雜的模型。由于此類大型模型的參數存儲要求和計算要求,使用這些模型的訓練甚至預測或生成(例如,在語言翻譯中)可能超出單個加速器芯片的計算和存儲容量。
        因此,當像 GPT-3 這樣的大型模型是用例的首選時,一個具有多個加速器的系統就變得很有必要了。在這樣的多加速器系統中,系統組件之間的互連需要提供高帶寬、可擴展并且能夠容納連接到互連結構的異構節點。
        PCIe 技術因其高帶寬以及通過部署交換機進行擴展的能力而成為系統組件互連的絕佳選擇。如前所述,無處不在的基于PCIe 的設備允許相同的結構具有NIC、存儲設備和加速器。這允許有效的點對點通信,從而縮短訓練時間、降低推理延遲或提高推理吞吐量。對于需要低延遲和高帶寬的加速器間互連的多加速器用例,加速器供應商可以利用PCIe 規范的替代協議支持來創建自定義加速器間互連。
        在設計加速器以訓練 GPT-3 等大型模型或使用此類模型進行推理時要考慮的另一個重要方面是必須向加速器提供大量功率,以使其以最高性能水平處理這些模型。PCIe規范為系統提供了向加速卡提供大量電力的標準化方法。通過使用 PCIe 技術,加速器供應商可以安全地設計一個加速卡,該卡消耗 PCIe 架構標準允許的卡的最大值,而無需擔心來自各種系統供應商的系統互操作性。 

        電源效率

        ML 解決方案的每美元性能部分取決于其功率效率。例如,推理加速器可能僅在新推理請求從計算SoC 傳遞到加速器時才使用其與計算SoC 的鏈接。在剩下的時間里,鏈路基本上是空閑的。除非鏈路具有低功耗空閑狀態,否則它將通過保持在高性能活動狀態而不必要地消耗功率。
        為了獲得最大效率,加速器與系統其余部分的鏈接的功耗與這些鏈接的利用率呈線性關系是很重要的。PCIe提供 L1 和L0p 等鏈路電源狀態,以根據空閑和帶寬使用情況調節鏈路的功耗。
        此外,PCIe 規范具有設備空閑電源狀態(D-states),標準操作系統可以利用這些狀態通過在不需要時讓加速器進入睡眠狀態來降低系統功耗。PCIe技術還提供了控制加速器有功功耗的能力。因此,PCIe 規范使加速器能夠對系統的整體電源效率做出積極貢獻。

        PCIe 和 RAS

        對于 AI 加速器的數據中心部署,包括加速器在內的所有系統組件都需要可靠性、可用性和可維護性(RAS) 特性。此外,為了在實踐中可用,此類RAS 功能必須符合標準操作系統和平臺固件的要求。PCIe架構提供了一套豐富的操作系統友好的 RAS 功能,包括高級錯誤報告、熱添加和移除 PCIe 設備的能力等。因此,選擇基于 PCIe 的鏈路作為連接其他系統組件的方式有助于加速器產品滿足數據中心市場的RAS需求。
        PCIe 規范為AI 加速器供應商提供的一個重要優勢是能夠將相同的解決方案重新定位到幾個不同的細分市場。這是通過利用PCIe 技術的兩個特性來實現的:不同外形尺寸的可用性和PCIe 規范接口具有不同鏈路寬度的能力。這允許供應商根據細分市場所需的加速能力按比例擴展接口帶寬、功耗和外形尺寸。
        傳輸到加速器和從加速器傳出的數據的機密性和完整性對于大多數客戶來說都很重要。PCIe規范最近為 PCIe 鏈路上的數據傳輸引入了完整性保護和數據加密(IDE)。加速器供應商可以利用PCIe IDE 為數據提供端到端的機密性和完整性。 

        圖片

        訓練和推理工作流程都可以涉及計算SoC 中的 CPU 內核和以協作方式執行 ML 應用程序的加速器。這需要計算SoC 和加速器之間的高帶寬、低延遲通信通道?;赑CIe 的鏈路非常適合此應用。通過利用PCIe 規范對自定義芯片芯片通信協議的替代協議支持,甚至可以實現更低的延遲和更高的帶寬效率。
        由于 ML 加速器市場的競爭性質,縮短上市時間對于加速器供應商來說非常重要。由于豐富的生態系統提供了可用于快速芯片設計和驗證的高質量PCIe IP,因此利用 PCIe 技術可以在這方面有所幫助。供應商可以輕松訪問合規性測試服務,以確保他們的芯片能夠連接到所有與PCIe 技術兼容的計算系統,并且他們可以訪問大量PCIe 架構專家。

        結論

        如前所述,機器學習(尤其是深度學習)模型的規模和復雜性都在增長。為了在計算和內存容量方面跟上這一趨勢,具有多個互連加速器芯片的系統將變得越來越必要。芯片芯片的互連性能需要與計算和內存容量一起提高,以實現此類系統的真正性能潛力。
        選擇用于芯片芯片互連的PCIe 技術有助于供應商利用每一代新一代PCIe 技術為市場帶來的帶寬增長。昨天PCIe6.0最終版正式發布,將是上一代PCIe 5.0 數據速率的兩倍。
        采用 PCIe 規范將使 ML 加速器供應商能夠以更低的風險和更快的上市時間開發市場領先的加速器。它還提供了一條穩健的途徑來滿足擴展芯片芯片互連帶寬的工作負載需求。
        原文:

        https://www.electronicdesign.com/technologies/embedded-revolution/article/21213976/pcisig-how-pcie-specs-can-help-build-machinelearning-accelerators

        1. EETOP 官方微信

        2. 創芯大講堂 在線教育

        3. 創芯老字號 半導體快訊

        相關文章

        全部評論

        • 最新資訊
        • 最熱資訊
        @2003-2022 EETOP

        京ICP備10050787號   京公網安備:11010502037710

        99国内精品久久久久久久
      1. <wbr id="a4kgy"></wbr>