中國(guó)超算芯片是怎樣一步步追上英特爾的？

作者：時(shí)間：2016-02-01 來(lái)源：觀察者網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

編者按：光陰似箭，時(shí)過(guò)境遷，經(jīng)過(guò)數(shù)年的臥薪嘗膽，國(guó)內(nèi)IC設(shè)計(jì)單位的實(shí)力與日俱增，不僅能拿出至強(qiáng)PHI計(jì)算卡的替代產(chǎn)品，而且在性能上絲毫不落下風(fēng)，在中國(guó)芯片制造水平不斷提升，并有望不斷縮短和美國(guó)芯片制造水平的情況下，超越也許是只是時(shí)間問(wèn)題。

　　2015年4月，美國(guó)商務(wù)部決定對(duì)中國(guó)四家國(guó)家超級(jí)計(jì)算機(jī)中心禁售至強(qiáng)PHI計(jì)算卡，當(dāng)時(shí)各種唱衰中國(guó)超算的聲音不絕于耳。即便天河2號(hào)在2015年國(guó)際超級(jí)計(jì)算機(jī)大會(huì)上蟬聯(lián)5連冠，但因使用美國(guó)Intel公司的CPU而飽受一些別有用心之人的詬病，不少人聲稱(chēng)沒(méi)有美國(guó)的CPU，天河2號(hào)要完蛋了。

本文引用地址：http://www.butianyuan.cn/article/201602/286537.htm

　　現(xiàn)實(shí)卻截然相反：

　　在ISC2015發(fā)布會(huì)上，國(guó)防科大公布天河2A的升級(jí)方案，將采用國(guó)防科大自主研發(fā)的矩陣2000(GPDSP)替代至強(qiáng)PHI計(jì)算卡。矩陣2000采用40nm制程，擁有16核，主頻1G，雙精浮點(diǎn)2.4TFlops，功耗為200W。

　　新年伊始，從科技部公開(kāi)的文章中透露出好消息——由上海高性能集成電路設(shè)計(jì)中心設(shè)計(jì)的國(guó)產(chǎn)眾核芯片已達(dá)到世界先進(jìn)水平(美國(guó)情報(bào)部門(mén)對(duì)該芯片非常感興趣，因此筆者將其稱(chēng)為國(guó)產(chǎn)眾核芯片)。該眾核芯片采用28nm制程，峰值雙精度浮點(diǎn)運(yùn)算速度超過(guò)每秒3萬(wàn)億次(3TFlops)，完全追平了Intel第二代XeonPhi(也是Intel最好的眾核芯片)——第二代至強(qiáng)PHI計(jì)算卡產(chǎn)品代號(hào)“KnightsLanding”，采用了14nm工藝，雙精度浮點(diǎn)性能超過(guò)3TFlops，功耗250-300W。

　　1月22日，新華社報(bào)道了一則更為振奮人心的消息——中國(guó)計(jì)劃今年在天津啟動(dòng)新一代百億億次(百億億次是1000P，天河2號(hào)為55P，若不是記者筆誤，就真心是黑科技了)超級(jí)計(jì)算機(jī)的研制規(guī)劃......與此同時(shí)，國(guó)防科大正在設(shè)計(jì)新一代飛騰芯片。

　　由此可見(jiàn)，美國(guó)商務(wù)部的禁售計(jì)算卡的行為根本沒(méi)有對(duì)中國(guó)超算發(fā)展起到多大制約作用。其實(shí)，在過(guò)去半個(gè)世紀(jì)的時(shí)間里，歷史已經(jīng)證明了毛澤東同志的那句話(huà)——“封鎖吧，封鎖十年八年，中國(guó)的問(wèn)題就解決了”。

　　凡是能買(mǎi)到的都很難做出來(lái)

　　雖然自80年代以來(lái)，中國(guó)的計(jì)算機(jī)大多沒(méi)有中國(guó)芯，即便是天河1號(hào)、天河2號(hào)這些曾經(jīng)讓中國(guó)人揚(yáng)眉吐氣的超級(jí)計(jì)算機(jī)也基本使用國(guó)外芯片，國(guó)產(chǎn)芯片僅用于高速互聯(lián)網(wǎng)絡(luò)。

　　但在毛澤東時(shí)代，中國(guó)擁有自己的半導(dǎo)體工業(yè)，掌握了從單晶制備、設(shè)備制造、集成電路制造的全過(guò)程技術(shù)，中國(guó)制造的計(jì)算機(jī)也都有中國(guó)芯。

　　但在80年代奉行“造不如買(mǎi)、買(mǎi)不如租”、“市場(chǎng)換技術(shù)”后，中國(guó)集成電路產(chǎn)業(yè)遭到毀滅性的打擊——毛澤東時(shí)代積累下的家底被敗得精光，技術(shù)人才要么流失到國(guó)外，要么去大學(xué)教書(shū)，有的甚至被調(diào)去看守機(jī)房，毛澤東時(shí)代培養(yǎng)起來(lái)的技術(shù)人才流失殆盡。

　　在這段時(shí)間里，自主技術(shù)被無(wú)限貶低，而洋技術(shù)被過(guò)度美化，“外國(guó)專(zhuān)家”更是被奉為上帝，決策者對(duì)其缺乏最基本的警惕——很多非常有前途的科研項(xiàng)目在領(lǐng)導(dǎo)聽(tīng)取“外國(guó)專(zhuān)家”的意見(jiàn)后被否決;不少科研項(xiàng)目更是在“外國(guó)專(zhuān)家”的“悉心指導(dǎo)”下被引上了歧路;對(duì)“外國(guó)專(zhuān)家”索要技術(shù)資料予取予求，大量寶貴的自主技術(shù)被“外國(guó)專(zhuān)家”竊取后搖身一變成為“洋技術(shù)”，釀成中國(guó)企業(yè)使用自己研發(fā)的技術(shù)依舊要給外商繳納專(zhuān)利費(fèi)的窘境。

　　而自主研發(fā)CPU也被進(jìn)口CPU取代，比如1983年，浪潮開(kāi)始采用進(jìn)口Intel8088芯片，而非國(guó)產(chǎn)芯片組裝0520微機(jī)，在80年代至90年代初研制的長(zhǎng)城286、長(zhǎng)城386、長(zhǎng)城486、2780機(jī)、太極2220、銀河超級(jí)小型機(jī)、HN2730超級(jí)小型機(jī)等計(jì)算機(jī)均采用國(guó)外芯片。中國(guó)第四代計(jì)算機(jī)中的巨型機(jī)代表機(jī)型——“銀河1”巨型計(jì)算機(jī)耗資1億元人民幣，但因大量購(gòu)買(mǎi)國(guó)外硬件，未能對(duì)中國(guó)的半導(dǎo)體產(chǎn)業(yè)進(jìn)步起到多大積極作用。

　　在“造不如買(mǎi)、買(mǎi)不如租”理論的指導(dǎo)下，至80年代末，中國(guó)憑自己的技術(shù)已經(jīng)很難生產(chǎn)出一臺(tái)計(jì)算機(jī)了。到90年代初，以聯(lián)想為代表的中國(guó)計(jì)算機(jī)企業(yè)紛紛轉(zhuǎn)向“貿(mào)工技”路線(xiàn)，只從事低附加值的微機(jī)組裝，無(wú)力也無(wú)心從事芯片研發(fā)，國(guó)內(nèi)芯片市場(chǎng)徹底落入外資掌控。

　　凡是買(mǎi)不到的都做出來(lái)了

　　中蘇論戰(zhàn)后，美蘇同時(shí)對(duì)中國(guó)進(jìn)行技術(shù)封鎖，迫使中國(guó)走上獨(dú)立自主、自力更生的發(fā)展道路。正如赫魯曉夫撤走了蘇聯(lián)援華專(zhuān)家后，逼著中國(guó)憑借自己的能力搞出了“兩彈一星”。在美國(guó)和蘇聯(lián)共同技術(shù)封鎖下，哈軍工于1962年成功研發(fā)出晶體管，使中國(guó)比美國(guó)晚8年進(jìn)入晶體管時(shí)代，中國(guó)第一臺(tái)全晶體管計(jì)算機(jī)441B-I于1964年誕生，相對(duì)于美國(guó)于第一臺(tái)全晶體管計(jì)算機(jī)RCA501晚了6年。1965年，中國(guó)研制出第一塊集成電路，比美國(guó)晚了5年進(jìn)入集成電路時(shí)代。1972年，中國(guó)研制出大規(guī)模集成電路比美國(guó)晚4年實(shí)現(xiàn)了從中小集成電路發(fā)展到大規(guī)模集成電路的跨越。

　　在中國(guó)喪失獨(dú)立自主研發(fā)制造計(jì)算機(jī)的能力后，美國(guó)政府嚴(yán)格限制對(duì)中國(guó)出口高性能計(jì)算機(jī)，除了采購(gòu)價(jià)格高昂外，還要把計(jì)算機(jī)放在透明的玻璃房中，由美國(guó)人監(jiān)控，鑰匙在美國(guó)人手中，每次使用都要向美國(guó)人請(qǐng)示，并說(shuō)明具體用途，由美國(guó)人核準(zhǔn)使用。

　　痛定思痛后，中國(guó)重啟高性能計(jì)算機(jī)研發(fā)項(xiàng)目，1992年銀河2誕生。1993年，曙光1號(hào)誕生，曙光1號(hào)研制成功后3天，西方解除對(duì)中國(guó)高性能計(jì)算機(jī)出口限制。在堅(jiān)定了自主發(fā)展超算的決心后，中國(guó)超算捷報(bào)頻傳——先后自主研發(fā)曙光1000、曙光2000、曙光3000、曙光4000、曙光5000、曙光6000、銀河3、銀河4、天河1號(hào)、天河2號(hào)、神威藍(lán)光等超算，并逐步形成了天河(國(guó)防科大)、神威、曙光(曙光公司)三大系列超算。

　　與此同時(shí)，國(guó)產(chǎn)超算的軟件系統(tǒng)和硬件系統(tǒng)的國(guó)產(chǎn)化也在穩(wěn)步推進(jìn)——天河2號(hào)的硬件系統(tǒng)除了高速運(yùn)算系統(tǒng)中采用了Intel的E5和至強(qiáng)PHI之外，高速互連通信網(wǎng)絡(luò)系統(tǒng)、存儲(chǔ)系統(tǒng)(I/O管理結(jié)點(diǎn)和I/O存儲(chǔ)結(jié)點(diǎn))、維護(hù)監(jiān)控系統(tǒng)、電源系統(tǒng)、冷卻系統(tǒng)和結(jié)構(gòu)組裝設(shè)計(jì)等基本實(shí)現(xiàn)國(guó)產(chǎn)化，在軟件系統(tǒng)方面，操作系統(tǒng)、編譯系統(tǒng)、并行程序開(kāi)發(fā)環(huán)境、科學(xué)計(jì)算可視化系統(tǒng)大多實(shí)現(xiàn)國(guó)產(chǎn)化。而神威藍(lán)光超算則實(shí)現(xiàn)了除冷卻系統(tǒng)之外的軟件和硬件的全國(guó)產(chǎn)。

　　更為重要的是，這些超算并非像某些人說(shuō)的為爭(zhēng)奪世界第一的虛名建設(shè)，而是實(shí)實(shí)在在的用于彈道計(jì)算、核物理研究、氣候氣象、海洋環(huán)境、數(shù)值風(fēng)洞、碰撞仿真、生命科學(xué)、石油物探等科研領(lǐng)域。另外，國(guó)產(chǎn)超算/高性能計(jì)算機(jī)還廣泛用于工業(yè)生產(chǎn)、氣象預(yù)報(bào)和影視娛樂(lè)。

　　曙光公司的高性能計(jì)算機(jī)在中石油、中石化和中海油勘探計(jì)算機(jī)房?jī)?nèi)隨處可見(jiàn)，這些高性能計(jì)算機(jī)為工程師提供高精度的采油區(qū)地下構(gòu)造和地質(zhì)信息。

　　“天河-酷卡”云計(jì)算渲染平臺(tái)使動(dòng)畫(huà)渲染的制作周期由原來(lái)的4至6個(gè)月縮短到1天，平均每天同時(shí)為8部動(dòng)漫影視作品提供渲染?！栋⒎策_(dá)》動(dòng)漫渲染制作耗時(shí)1年多完成，如果用“天河二號(hào)”，則僅需1個(gè)月時(shí)間。

　　隨著霧霾現(xiàn)象越來(lái)越受人民關(guān)注，霧霾天氣預(yù)警預(yù)報(bào)已經(jīng)成為“天河一號(hào)”的又一項(xiàng)任務(wù)。國(guó)家超算天津中心已經(jīng)研發(fā)出霧霾自動(dòng)化實(shí)時(shí)預(yù)警預(yù)報(bào)系統(tǒng)，正以河北保定作為試點(diǎn)，對(duì)未來(lái)5天霧霾天實(shí)時(shí)預(yù)報(bào)，未來(lái)3年內(nèi)逐步建成全國(guó)性的霧霾預(yù)警預(yù)報(bào)系統(tǒng)。此外，天河超算還能回溯地球的氣候變遷，“天河一號(hào)”可以模擬2000年前的變化，“天河二號(hào)”則可以模擬到5000年前甚至更遠(yuǎn)。

　　中科曙光與大氣物理所等單位共同研發(fā)“地球數(shù)值模擬裝置”原型機(jī)系統(tǒng)，則填補(bǔ)了我國(guó)地球系統(tǒng)模式大數(shù)據(jù)實(shí)踐平臺(tái)的空白。

　　可以說(shuō)，超級(jí)計(jì)算機(jī)為中國(guó)的國(guó)防、科研、工業(yè)、經(jīng)濟(jì)等諸多方面做出了巨大貢獻(xiàn)!

　　以史為鑒，技術(shù)封鎖其實(shí)是件好事，在信息技術(shù)領(lǐng)域，建國(guó)以來(lái)的這段歷史就可說(shuō)明“凡是能買(mǎi)到的都很難做出來(lái)了，凡是買(mǎi)不到的都做出來(lái)了”。因?yàn)橹灰鞣郊夹g(shù)封鎖，國(guó)內(nèi)買(mǎi)辦和國(guó)外勢(shì)力就不可能用“市場(chǎng)換技術(shù)”、“造不如買(mǎi)、買(mǎi)不如租”的方式來(lái)扼殺自主技術(shù)。

　　那么，中國(guó)的人力物力財(cái)力將全部投入到自主技術(shù)的研發(fā)中，輔以中國(guó)全世界最齊全的工業(yè)部門(mén)和扎實(shí)的工業(yè)基礎(chǔ)，加上中國(guó)龐大的市場(chǎng)和豐富的資源，就能做到“封鎖什么，解決什么”，所以從長(zhǎng)期來(lái)看，技術(shù)封鎖是好事。

　　中美眾核芯片對(duì)比

　　在幾年前，當(dāng)Intel第一代至強(qiáng)PHI上市之時(shí)，國(guó)內(nèi)根本就沒(méi)有類(lèi)似的產(chǎn)品，而龍芯、申威、飛騰準(zhǔn)備用于超算的多核芯片也遠(yuǎn)遠(yuǎn)無(wú)法與Intel匹敵：

　　飛騰1500，16核，制程40nm，1.8G主頻，最大功耗65W，雙精浮點(diǎn)144G;

　　申威1600，16核，制程65nm，1.1G主頻，最大功耗70W，雙精浮點(diǎn)140G;

　　申威1610，16核，制程40nm，1.6G主頻，最大功耗50W，雙精浮點(diǎn)200G;

　　龍芯3B1000，8核，制程65nm，1G主頻，最大功耗65W，雙精浮點(diǎn)128G;

　　龍芯3B1500，8核，制程32nm，1.2G主頻，最大功耗40W，雙精浮點(diǎn)192G。

　　即便是成績(jī)最好的申威1610的理論雙精浮點(diǎn)峰值也只有200G，而Intel第一代至強(qiáng)PHI的理論雙精浮點(diǎn)峰值高達(dá)1T，是申威1610的5倍。正是因此，天河2號(hào)只能無(wú)奈的選擇Intel至強(qiáng)PHI作為其加速器。

　　國(guó)防科大自主研發(fā)的矩陣2000理論雙精浮點(diǎn)峰值達(dá)2.4T，功耗為200W，理論雙精浮點(diǎn)峰值達(dá)到第二代至強(qiáng)PHI的80%，性能功耗比略?xún)?yōu)于第二代至強(qiáng)PHI。

　　如果說(shuō)矩陣2000是GSDSP，而非眾核加速器，在性能上也稍遜第二代至強(qiáng)PHI一籌，那么上海高性能集成電路設(shè)計(jì)中心設(shè)計(jì)的國(guó)產(chǎn)眾核芯片是對(duì)美國(guó)禁售至強(qiáng)PHI計(jì)算卡最有力的回?fù)?，特別是在設(shè)計(jì)理念上，國(guó)產(chǎn)眾核加速器非常先進(jìn)。

　　因采用異構(gòu)計(jì)算可以獲得更好的性能功耗比和峰值性能，目前中美正在建設(shè)的100P超算基本采用異構(gòu)計(jì)算，也就是一個(gè)計(jì)算節(jié)點(diǎn)由CPU+加速器組成，比如天河2A號(hào)一個(gè)計(jì)算節(jié)點(diǎn)由2個(gè)E5(將來(lái)可能會(huì)替換成國(guó)防科大自主研發(fā)的64核服務(wù)器芯片“火星”)和三個(gè)矩陣2000組成。加速器可以是K80這樣的GPGPU，也可以是矩陣2000這樣的GPDSP，還可以是Intel至強(qiáng)PHI、國(guó)產(chǎn)眾核芯片這樣的眾核加速器。

　　異構(gòu)計(jì)算雖然有很多優(yōu)點(diǎn)，但也會(huì)帶來(lái)很多缺點(diǎn)，比如通用性不夠好，效率不夠高，編程比較麻煩，另外，天河2號(hào)和美國(guó)超算Stampede中的Intel至強(qiáng)PHI計(jì)算卡和E5是不共享內(nèi)存的，因而需要程序員顯式拷貝，進(jìn)而造成性能損失。而國(guó)產(chǎn)眾核芯片通過(guò)設(shè)計(jì)理念的革新，很大程度減輕了上述方面的負(fù)面影響，在某些方面甚至徹底避免了性能損失。

　　因此，筆者認(rèn)為，國(guó)產(chǎn)眾核芯雖然因采用28nm制程，使其在制程上遜色于第二代至強(qiáng)PHI的14nm。但憑借設(shè)計(jì)理念的先進(jìn)性，相對(duì)于Intel第二代至強(qiáng)PHI會(huì)有一定優(yōu)勢(shì)。而雙精浮點(diǎn)運(yùn)算峰值高達(dá)3T的性能指標(biāo)，使其成為完全不遜色于Intel第二代至強(qiáng)PHI的存在。