技術革命！主流芯片架構正在發(fā)生重大變化？

—— 主流芯片架構正在發(fā)生重大變化？

作者：時間：2018-08-31 來源：與非網

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：由于芯片尺寸縮減帶來的效益越來越小，業(yè)界正在設計支持AI的系統(tǒng)，以在本地處理更多數(shù)據(jù)，芯片制造商正在研究可顯著增加每瓦和每時鐘周期可處理數(shù)據(jù)量的新型架構，從而開啟了數(shù)十年來芯片架構轉變的大幕。

　　主流的芯片制造商和系統(tǒng)供應商都在改變方向，引發(fā)了一場架構創(chuàng)新大賽，創(chuàng)新涉及從存儲器中讀取和寫入數(shù)據(jù)的方式、數(shù)據(jù)管理和處理方式以及單個芯片上的各個元素的結合方式等。雖然工藝節(jié)點尺寸仍在繼續(xù)縮減，但是沒有人寄希望于工藝的進步可以跟得上傳感器數(shù)據(jù)的爆炸性增長以及芯片間數(shù)據(jù)流量增加的步伐。

本文引用地址：http://www.butianyuan.cn/article/201808/391400.htm 主流芯片架構正在發(fā)生重大變化？

　　在這些創(chuàng)新中，新型處理器架構專注于研究每個時鐘周期內處理更多數(shù)據(jù)的方法，有時犧牲部分精度，或者根據(jù)應用類型提高特定操作的優(yōu)先級;

　　正在開發(fā)的新存儲器架構改變了數(shù)據(jù)存儲、讀取、寫入和訪問的方式;

　　更有針對性的處理元素散布在系統(tǒng)周圍，更加靠近內存。系統(tǒng)不再依賴于最適合應用的單個主處理器，而是根據(jù)數(shù)據(jù)類型和應用選擇不同的加速器;

　　通過人工智能技術，將不同的數(shù)據(jù)類型融合在一起，形成多種模式，有效地提高了數(shù)據(jù)密度，同時最大限度地減少不同數(shù)據(jù)類型之間的差異;

　　封裝組合形式成為架構設計的核心之一，越來越關注修改設計的難易。

　　“有一些趨勢導致人們試圖充分挖掘已有方案的潛力。” Rambus的杰出發(fā)明家Steven Woo說，“在數(shù)據(jù)中心上，你希望硬件和軟件能夠發(fā)揮盡可能多的作用，這是數(shù)據(jù)中心重新思考其經濟成本的方式。啟用一種新功能的成本非常高，但是瓶頸正在日益凸顯，所以我們看到更多專用芯片和提高計算效率的方法不斷涌現(xiàn)，如果可以減少數(shù)據(jù)在內存和I/O上來回傳輸?shù)拇螖?shù)，將會產生很大的影響。”

　　這些變化在邊緣節(jié)點上更加明顯，此外，系統(tǒng)供應商突然意識到有數(shù)百億臺設備不斷地產生天量數(shù)據(jù)，而這些數(shù)據(jù)無法全部發(fā)送到云端進行處理。在邊緣節(jié)點上處理這些數(shù)據(jù)對節(jié)點自身帶來了挑戰(zhàn)，它們需要在不顯著改變功耗預算的情況下大幅提高性能。

　　英偉達的Tesla產品家族首席平臺架構師Robert Ober說：“人們把重點放在降低精度上，邊緣節(jié)點性能的提升不僅僅體現(xiàn)在更多計算周期上。它需要在內存中放入更多數(shù)據(jù)，比如您可以使用16位指令格式。所以，解決方案不是為了提高處理效率而在緩存中存儲更多內容。從統(tǒng)計上看，不同精度的計算結果應該是一致的?！?/p>

　　Ober預測，在可預見的未來，通過一系列架構優(yōu)化應該可以每隔幾年就將處理速度提高一倍?！拔覀儗⒁娮C這些改變，”他說?！盀榱藢崿F(xiàn)這一目標，我們需要在三個層面實現(xiàn)突破。第一是計算，第二是內存，在某些模型中，計算更關鍵，而在其它模型中內存更關鍵。第三是主處理器帶寬和I/O帶寬，我們需要在優(yōu)化存儲和網絡方面做很多工作?！?/p>

　　其中一些變化已經發(fā)生。在Hot Chips 2018會議上的演講中，三星奧斯汀研發(fā)部門的首席架構師 Jeff Rupley指出了該公司M3處理器的幾個主要架構變化。其中一個是每個周期處理更多的指令，相比于之前M2處理的四條指令/周期，M3為6條。還包括以若干神經網絡取代預取搜索，改善了分支預測，以及將指令隊列深度加倍。

　　從另一個角度來看，這些變化也改變了從制造工藝到前端架構/設計和后端封裝的協(xié)同創(chuàng)新關系。雖然制造工藝仍在不斷創(chuàng)新，但是每次新節(jié)點只能帶來15%到20%的性能和功耗改善，顯然不足以跟上數(shù)據(jù)的增長步伐。

　　“變化正以指數(shù)速度發(fā)生，”Xilinx總裁兼首席執(zhí)行官Victor Peng在Hot Chips的演講中表示。 “現(xiàn)在每年將產生10個zettabytes [1021字節(jié)]的數(shù)據(jù)，其中大部分是非結構化數(shù)據(jù)。”

　　存儲器領域的新方案

　　處理這么多數(shù)據(jù)需要重新思考系統(tǒng)中的每個元素，從數(shù)據(jù)的處理方式到存儲方式都需要重新設計。

　　“業(yè)界已經進行了多次嘗試，以創(chuàng)建新的內存架構，”eSilicon EMEA創(chuàng)新高級主管CarlosMaciàn說?！爱斍皟却娴钠款i在于你需要讀取出一整行，然后再在其中選擇一位。一種新方法是構建可以從左到右、從上到下讀取的內存。您還可以更進一步，將計算能力部署到不同的內存中?！?/p>

　　還可以改變內存的讀取方式、處理單元的位置和類型，以及使用人工智能技術優(yōu)化不同數(shù)據(jù)在整個系統(tǒng)中存儲、處理、傳輸?shù)膬?yōu)先級。

　　“在稀疏數(shù)據(jù)中，我們一次只能從字節(jié)陣列讀取一個字節(jié)的數(shù)據(jù)，在其它類型應用中，也可以在同樣的字節(jié)陣列中一次讀取八個連續(xù)數(shù)據(jù)，而不會消耗與我們不感興趣的其它字節(jié)或字節(jié)陣列相關的能耗，”Cadence產品營銷部門總監(jiān)Marc Greenberg說。 “未來的新型內存可能更適合處理這類事情。比如我們看一下HBM2的架構，HBM2硅片堆棧被安排到16個64位的虛擬通道中，我們從任何一次對任何虛擬通道的訪問中都能得到4個連續(xù)的64位字。因此，有可能構建可水平寫入的1，024位寬的數(shù)據(jù)陣列，一次只讀取4個64位字?！?/p>

　　內存是馮諾依曼架構的核心組件之一，也正在成為架構創(chuàng)新的最大試驗田之一。AMD的客戶端產品首席架構師Dan Bouvier表示：“現(xiàn)有架構的一個大報應就是虛擬內存系統(tǒng)，它迫使你以更加不自然的方式移動數(shù)據(jù)。你需要執(zhí)行一次又一次轉換。如果您可以消除DRAM中的分區(qū)沖突，您可以獲得更高效的數(shù)據(jù)流動。分立GPU可以在90%的效率區(qū)間運行DRAM，效率非常高。但是，如果你可以獲得串行的數(shù)據(jù)傳輸，你也可以在APU和CPU上在80%到85%的效率區(qū)間內運行DRAM?！?/p>

　　馮諾依曼架構

　　IBM正在開發(fā)一種不同類型的內存架構，它本質上是磁盤條帶化技術的現(xiàn)代版本。磁盤條帶化技術將數(shù)據(jù)不再局限在單個磁盤上，同樣，IBM新型內存架構的目標是利用被其系統(tǒng)硬件架構師Jeff Stuecheli稱為連接技術的“瑞士軍刀”的連接器技術，混合和匹配不同類型的數(shù)據(jù)。

　　“CPU變成了一個位于高性能信號接口中間的東西，”Stuecheli說。“如果你修改微體系結構，不用提高頻率，內核就可以在每個周期內做更多的事情?！?/p>

　　為了確保這些體系架構能夠處理越來越龐大的數(shù)據(jù)，連接性和吞吐能力變得越來越重要。 “現(xiàn)在最大的瓶頸在于數(shù)據(jù)傳輸，”Rambus的Woo說。 “半導體行業(yè)在提高計算性能方面做得非常出色。但是，如果您把大量時間用在等待數(shù)據(jù)或特定的數(shù)據(jù)模式上，效率依然無法提高。必須更快地運行內存。因此，如果你看看DRAM和非易失性存儲器就會發(fā)現(xiàn)，它們的性能實際上取決于數(shù)據(jù)傳輸模式。如果您能夠將數(shù)據(jù)串起來，就可以在內存中獲得非常高的效率。但是如果你的數(shù)據(jù)在空間上隨機分布，效率就會降低。無論你怎么做，隨著數(shù)據(jù)量的增加，你必須保證能夠更快地完成所有這些數(shù)據(jù)傳輸?！?/p>