新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > 技術(shù)革命!主流芯片架構(gòu)正在發(fā)生重大變化?

技術(shù)革命!主流芯片架構(gòu)正在發(fā)生重大變化?

—— 主流芯片架構(gòu)正在發(fā)生重大變化?
作者: 時(shí)間:2018-08-31 來(lái)源:與非網(wǎng) 收藏
編者按:由于芯片尺寸縮減帶來(lái)的效益越來(lái)越小,業(yè)界正在設(shè)計(jì)支持AI的系統(tǒng),以在本地處理更多數(shù)據(jù),芯片制造商正在研究可顯著增加每瓦和每時(shí)鐘周期可處理數(shù)據(jù)量的新型架構(gòu),從而開啟了數(shù)十年來(lái)芯片架構(gòu)轉(zhuǎn)變的大幕。

  主流的制造商和系統(tǒng)供應(yīng)商都在改變方向,引發(fā)了一場(chǎng)架構(gòu)創(chuàng)新大賽,創(chuàng)新涉及從存儲(chǔ)器中讀取和寫入數(shù)據(jù)的方式、數(shù)據(jù)管理和處理方式以及單個(gè)上的各個(gè)元素的結(jié)合方式等。雖然工藝節(jié)點(diǎn)尺寸仍在繼續(xù)縮減,但是沒(méi)有人寄希望于工藝的進(jìn)步可以跟得上傳感器數(shù)據(jù)的爆炸性增長(zhǎng)以及間數(shù)據(jù)流量增加的步伐。

本文引用地址:http://butianyuan.cn/article/201808/391400.htm
主流芯片架構(gòu)正在發(fā)生重大變化?

  在這些創(chuàng)新中, 新型處理器架構(gòu)專注于研究每個(gè)時(shí)鐘周期內(nèi)處理更多數(shù)據(jù)的方法,有時(shí)犧牲部分精度,或者根據(jù)應(yīng)用類型提高特定操作的優(yōu)先級(jí);

  正在開發(fā)的新存儲(chǔ)器架構(gòu)改變了數(shù)據(jù)存儲(chǔ)、讀取、寫入和訪問(wèn)的方式;

  更有針對(duì)性的處理元素散布在系統(tǒng)周圍,更加靠近內(nèi)存。系統(tǒng)不再依賴于最適合應(yīng)用的單個(gè)主處理器,而是根據(jù)數(shù)據(jù)類型和應(yīng)用選擇不同的加速器;

  通過(guò)人工智能技術(shù),將不同的數(shù)據(jù)類型融合在一起,形成多種模式,有效地提高了數(shù)據(jù)密度,同時(shí)最大限度地減少不同數(shù)據(jù)類型之間的差異;

  封裝組合形式成為架構(gòu)設(shè)計(jì)的核心之一,越來(lái)越關(guān)注修改設(shè)計(jì)的難易。

  “有一些趨勢(shì)導(dǎo)致人們?cè)噲D充分挖掘已有方案的潛力?!?Rambus的杰出發(fā)明家Steven Woo說(shuō),“在數(shù)據(jù)中心上,你希望硬件和軟件能夠發(fā)揮盡可能多的作用,這是數(shù)據(jù)中心重新思考其經(jīng)濟(jì)成本的方式。啟用一種新功能的成本非常高,但是瓶頸正在日益凸顯,所以我們看到更多專用芯片和提高計(jì)算效率的方法不斷涌現(xiàn),如果可以減少數(shù)據(jù)在內(nèi)存和I/O上來(lái)回傳輸?shù)拇螖?shù),將會(huì)產(chǎn)生很大的影響?!?/p>

  這些變化在邊緣節(jié)點(diǎn)上更加明顯,此外,系統(tǒng)供應(yīng)商突然意識(shí)到有數(shù)百億臺(tái)設(shè)備不斷地產(chǎn)生天量數(shù)據(jù),而這些數(shù)據(jù)無(wú)法全部發(fā)送到云端進(jìn)行處理。在邊緣節(jié)點(diǎn)上處理這些數(shù)據(jù)對(duì)節(jié)點(diǎn)自身帶來(lái)了挑戰(zhàn),它們需要在不顯著改變功耗預(yù)算的情況下大幅提高性能。

  英偉達(dá)的Tesla產(chǎn)品家族首席平臺(tái)架構(gòu)師Robert Ober說(shuō):“人們把重點(diǎn)放在降低精度上,邊緣節(jié)點(diǎn)性能的提升不僅僅體現(xiàn)在更多計(jì)算周期上。它需要在內(nèi)存中放入更多數(shù)據(jù),比如您可以使用16位指令格式。 所以,解決方案不是為了提高處理效率而在緩存中存儲(chǔ)更多內(nèi)容。從統(tǒng)計(jì)上看,不同精度的計(jì)算結(jié)果應(yīng)該是一致的?!?/p>

  Ober預(yù)測(cè),在可預(yù)見(jiàn)的未來(lái),通過(guò)一系列架構(gòu)優(yōu)化應(yīng)該可以每隔幾年就將處理速度提高一倍?!拔覀儗⒁?jiàn)證這些改變,”他說(shuō)?!盀榱藢?shí)現(xiàn)這一目標(biāo),我們需要在三個(gè)層面實(shí)現(xiàn)突破。第一是計(jì)算,第二是內(nèi)存,在某些模型中,計(jì)算更關(guān)鍵,而在其它模型中內(nèi)存更關(guān)鍵。第三是主處理器帶寬和I/O帶寬,我們需要在優(yōu)化存儲(chǔ)和網(wǎng)絡(luò)方面做很多工作?!?/p>

  其中一些變化已經(jīng)發(fā)生。在Hot Chips 2018會(huì)議上的演講中,三星奧斯汀研發(fā)部門的首席架構(gòu)師 Jeff Rupley指出了該公司M3處理器的幾個(gè)主要架構(gòu)變化。其中一個(gè)是每個(gè)周期處理更多的指令,相比于之前M2處理的四條指令/周期,M3為6條。還包括以若干神經(jīng)網(wǎng)絡(luò)取代預(yù)取搜索,改善了分支預(yù)測(cè),以及將指令隊(duì)列深度加倍。

  從另一個(gè)角度來(lái)看,這些變化也改變了從制造工藝到前端架構(gòu)/設(shè)計(jì)和后端封裝的協(xié)同創(chuàng)新關(guān)系。雖然制造工藝仍在不斷創(chuàng)新,但是每次新節(jié)點(diǎn)只能帶來(lái)15%到20%的性能和功耗改善,顯然不足以跟上數(shù)據(jù)的增長(zhǎng)步伐。

  “變化正以指數(shù)速度發(fā)生,”Xilinx總裁兼首席執(zhí)行官Victor Peng在Hot Chips的演講中表示。 “現(xiàn)在每年將產(chǎn)生10個(gè)zettabytes [1021字節(jié)]的數(shù)據(jù),其中大部分是非結(jié)構(gòu)化數(shù)據(jù)。”

  存儲(chǔ)器領(lǐng)域的新方案

  處理這么多數(shù)據(jù)需要重新思考系統(tǒng)中的每個(gè)元素,從數(shù)據(jù)的處理方式到存儲(chǔ)方式都需要重新設(shè)計(jì)。

  “業(yè)界已經(jīng)進(jìn)行了多次嘗試,以創(chuàng)建新的內(nèi)存架構(gòu),”eSilicon EMEA創(chuàng)新高級(jí)主管CarlosMaciàn說(shuō)?!爱?dāng)前內(nèi)存的瓶頸在于你需要讀取出一整行,然后再在其中選擇一位。一種新方法是構(gòu)建可以從左到右、從上到下讀取的內(nèi)存。您還可以更進(jìn)一步,將計(jì)算能力部署到不同的內(nèi)存中。”

  還可以改變內(nèi)存的讀取方式、處理單元的位置和類型,以及使用人工智能技術(shù)優(yōu)化不同數(shù)據(jù)在整個(gè)系統(tǒng)中存儲(chǔ)、處理、傳輸?shù)膬?yōu)先級(jí)。

  “在稀疏數(shù)據(jù)中,我們一次只能從字節(jié)陣列讀取一個(gè)字節(jié)的數(shù)據(jù),在其它類型應(yīng)用中,也可以在同樣的字節(jié)陣列中一次讀取八個(gè)連續(xù)數(shù)據(jù),而不會(huì)消耗與我們不感興趣的其它字節(jié)或字節(jié)陣列相關(guān)的能耗,”Cadence產(chǎn)品營(yíng)銷部門總監(jiān)Marc Greenberg說(shuō)。 “未來(lái)的新型內(nèi)存可能更適合處理這類事情。比如我們看一下HBM2的架構(gòu),HBM2硅片堆棧被安排到16個(gè)64位的虛擬通道中,我們從任何一次對(duì)任何虛擬通道的訪問(wèn)中都能得到4個(gè)連續(xù)的64位字。因此,有可能構(gòu)建可水平寫入的1,024位寬的數(shù)據(jù)陣列,一次只讀取4個(gè)64位字?!?/p>

  內(nèi)存是馮諾依曼架構(gòu)的核心組件之一,也正在成為架構(gòu)創(chuàng)新的最大試驗(yàn)田之一。AMD的客戶端產(chǎn)品首席架構(gòu)師Dan Bouvier表示:“現(xiàn)有架構(gòu)的一個(gè)大報(bào)應(yīng)就是虛擬內(nèi)存系統(tǒng),它迫使你以更加不自然的方式移動(dòng)數(shù)據(jù)。你需要執(zhí)行一次又一次轉(zhuǎn)換。如果您可以消除DRAM中的分區(qū)沖突,您可以獲得更高效的數(shù)據(jù)流動(dòng)。分立GPU可以在90%的效率區(qū)間運(yùn)行DRAM,效率非常高。但是,如果你可以獲得串行的數(shù)據(jù)傳輸,你也可以在APU和CPU上在80%到85%的效率區(qū)間內(nèi)運(yùn)行DRAM?!?/p>


主流芯片架構(gòu)正在發(fā)生重大變化?

  馮諾依曼架構(gòu)

  IBM正在開發(fā)一種不同類型的內(nèi)存架構(gòu),它本質(zhì)上是磁盤條帶化技術(shù)的現(xiàn)代版本。磁盤條帶化技術(shù)將數(shù)據(jù)不再局限在單個(gè)磁盤上,同樣,IBM新型內(nèi)存架構(gòu)的目標(biāo)是利用被其系統(tǒng)硬件架構(gòu)師Jeff Stuecheli稱為連接技術(shù)的“瑞士軍刀”的連接器技術(shù),混合和匹配不同類型的數(shù)據(jù)。

  “CPU變成了一個(gè)位于高性能信號(hào)接口中間的東西,”Stuecheli說(shuō)?!叭绻阈薷奈Ⅲw系結(jié)構(gòu),不用提高頻率,內(nèi)核就可以在每個(gè)周期內(nèi)做更多的事情?!?/p>

  為了確保這些體系架構(gòu)能夠處理越來(lái)越龐大的數(shù)據(jù),連接性和吞吐能力變得越來(lái)越重要。 “現(xiàn)在最大的瓶頸在于數(shù)據(jù)傳輸,”Rambus的Woo說(shuō)。 “半導(dǎo)體行業(yè)在提高計(jì)算性能方面做得非常出色。 但是,如果您把大量時(shí)間用在等待數(shù)據(jù)或特定的數(shù)據(jù)模式上,效率依然無(wú)法提高。必須更快地運(yùn)行內(nèi)存。因此,如果你看看DRAM和非易失性存儲(chǔ)器就會(huì)發(fā)現(xiàn),它們的性能實(shí)際上取決于數(shù)據(jù)傳輸模式。如果您能夠?qū)?shù)據(jù)串起來(lái),就可以在內(nèi)存中獲得非常高的效率。但是如果你的數(shù)據(jù)在空間上隨機(jī)分布,效率就會(huì)降低。無(wú)論你怎么做,隨著數(shù)據(jù)量的增加,你必須保證能夠更快地完成所有這些數(shù)據(jù)傳輸?!?/p>


上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞: 芯片

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉