硬核浮點(diǎn)DSP的FPGA或取代高性能計(jì)算GPGPU

作者：時(shí)間：2016-10-18 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近來(lái)，Altera公司推出業(yè)界首款浮點(diǎn)FPGA，它集成了硬核IEEE754兼容浮點(diǎn)運(yùn)算功能，提高了DSP性能、設(shè)計(jì)人員的效能和邏輯效率。據(jù)悉，硬核浮點(diǎn)DSP模塊集成在Altera20nmArria10FPGA和SoC中，以及14nmStratix10FPGA和SoC中。該新功能支持設(shè)計(jì)人員以相同的定點(diǎn)性能和效率在浮點(diǎn)中實(shí)現(xiàn)其算法，且不會(huì)對(duì)功耗、面積或者密度產(chǎn)生任何影響，也不會(huì)損失定點(diǎn)特性或功能。用戶可以使用Altera的FPGA和SoC來(lái)滿足大計(jì)算量應(yīng)用需求，例如應(yīng)用在高性能計(jì)算(HPC)、雷達(dá)、科學(xué)和醫(yī)療成像等領(lǐng)域。

本文引用地址：http://butianyuan.cn/article/201610/308446.htm

精度可調(diào)DSP體系結(jié)構(gòu)

“出色的性能歸功于我們創(chuàng)新的精度可調(diào)DSP體系結(jié)構(gòu)(圖)。”Altera公司首席DSP產(chǎn)品規(guī)劃經(jīng)理MichaelParker表示，“該技術(shù)在每一DSP模塊中包含了一個(gè)高精度加法器和單精度乘法器。這些硬核DSP模塊中內(nèi)置了數(shù)千個(gè)浮點(diǎn)運(yùn)算器，在20nm系列中，Arria10FPGA性能從140GigaFLOPS(GFLOPS)提升至1.5TeraFLOPS(TFLOPS);Altera的14nmStratix10FPGA系列將使用相同的體系結(jié)構(gòu)，性能擴(kuò)展到10TFLOPS。這是單個(gè)器件有史以來(lái)最高的性能指標(biāo)。”

圖：具有硬核浮點(diǎn)DSP模塊的首款FPGA

該浮點(diǎn)計(jì)算單元與現(xiàn)有精度可調(diào)定點(diǎn)模式實(shí)現(xiàn)了無(wú)縫集成。設(shè)計(jì)人員可以在其設(shè)計(jì)中使用所有定點(diǎn)DSP處理特性，還可以根據(jù)需要將全部設(shè)計(jì)或者部分設(shè)計(jì)更新到單精度浮點(diǎn)。IEEE754浮點(diǎn)所有復(fù)數(shù)都位于DSP模塊的硬核邏輯中，不占用可編程邏輯，即使是100%使用了DSP模塊，浮點(diǎn)也支持定點(diǎn)設(shè)計(jì)中相似的時(shí)鐘速率。

大幅縮短開(kāi)發(fā)時(shí)間

MichaelParker稱，自然支持浮點(diǎn)功能對(duì)于設(shè)計(jì)人員在FPGA中實(shí)現(xiàn)復(fù)雜的高性能算法非常重要。構(gòu)建系統(tǒng)之前，在浮點(diǎn)中完成所有算法開(kāi)發(fā)和仿真。完成算法后，通常還需要6～12個(gè)月的時(shí)間在定點(diǎn)實(shí)現(xiàn)中進(jìn)行分析、轉(zhuǎn)換并驗(yàn)證浮點(diǎn)算法。這一過(guò)程需要克服以下三個(gè)問(wèn)題：(1)必須手動(dòng)將浮點(diǎn)設(shè)計(jì)轉(zhuǎn)換為定點(diǎn)，這需要工程師非常有經(jīng)驗(yàn)，而且其實(shí)現(xiàn)的精度沒(méi)有仿真高;(2)如果以后對(duì)算法進(jìn)行任何修改，還需要再次進(jìn)行手動(dòng)轉(zhuǎn)換，而且優(yōu)化系統(tǒng)中定點(diǎn)算法的任何步驟都不會(huì)反映在仿真中;(3)如果系統(tǒng)集成和測(cè)試過(guò)程中出現(xiàn)問(wèn)題，要隔離問(wèn)題會(huì)非常困難。

使用Altera浮點(diǎn)FPGA能夠幫助設(shè)計(jì)人員克服上述問(wèn)題，它們可以將DSP設(shè)計(jì)直接轉(zhuǎn)譯成浮點(diǎn)硬件，而不是轉(zhuǎn)換為定點(diǎn)，從而大幅縮短了時(shí)序收斂和驗(yàn)證時(shí)間。相比之前的系列，硬核浮點(diǎn)DSP模塊能夠縮短近12個(gè)月的開(kāi)發(fā)時(shí)間。

將與GPGPU展開(kāi)競(jìng)爭(zhēng)

據(jù)Altera方面透露，與Altera浮點(diǎn)FPGA競(jìng)爭(zhēng)的并非FPGA，而是GPGPU(GENERAL.htmltarget=_blank>GeneralPurposeGPU，即通用圖形處理單元，它不是簡(jiǎn)單的圖形引擎，而是通用計(jì)算加速器)。MichaelParker表示，這是因?yàn)槠渌鸉PGA供應(yīng)商提供的“軟核”浮點(diǎn)使用邏輯來(lái)實(shí)現(xiàn)復(fù)數(shù)浮點(diǎn)電路的效率不高，還不具競(jìng)爭(zhēng)力。

FPGA和GPGPU都可以使用OpenCL進(jìn)行設(shè)計(jì)，但它們?cè)谒惴▽?shí)現(xiàn)上有很大的不同。GPGPU使用并行處理器體系結(jié)構(gòu)，并行運(yùn)行數(shù)千個(gè)浮點(diǎn)乘加小單元。算法被分成數(shù)萬(wàn)個(gè)線程，數(shù)據(jù)準(zhǔn)備好后，映射到計(jì)算單元中。

Altera浮點(diǎn)FPGA在高性能計(jì)算方面具有突出優(yōu)勢(shì)。首先，由于其流水線邏輯體系結(jié)構(gòu)，數(shù)據(jù)流的處理延時(shí)要比GPGPU低得多;其次，F(xiàn)PGA的GFLOPS/W性能要優(yōu)于GPGPU，這也意味著對(duì)于所要求的功率預(yù)算，F(xiàn)PGA完成的計(jì)算量一般要多于GPGPU;第三，F(xiàn)PGA具有很好的通用性和廣泛的連通性，能夠直接放在數(shù)據(jù)通路中處理通過(guò)的數(shù)據(jù)。Altera還專門(mén)增加了數(shù)據(jù)流至其OpenCL工具的選項(xiàng)，以符合OpenCL供應(yīng)

商的擴(kuò)展要求。

Altera公司軟件和DSP產(chǎn)品市場(chǎng)經(jīng)理AlbertChang介紹，2014年下半年，Altera將提供面向Arria10器件中硬核浮點(diǎn)DSP模塊的浮點(diǎn)設(shè)計(jì)流程，包括演示和基準(zhǔn)測(cè)試。在此之前，用戶可以采用Arria10FPGA開(kāi)始設(shè)計(jì)，使用軟件浮點(diǎn)技術(shù)來(lái)實(shí)現(xiàn)浮點(diǎn)功能，在得到設(shè)計(jì)流程支持后，軟件工具會(huì)自動(dòng)(一次重新編譯)將浮點(diǎn)算法無(wú)縫映射到硬核浮點(diǎn)運(yùn)算中，而不必使用軟核邏輯。

新聞中心

硬核浮點(diǎn)DSP的FPGA或取代高性能計(jì)算GPGPU

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)