上萬顆英偉達芯片 + 微軟數(shù)億美元投資，帶你揭秘 ChatGPT 背后的超級計算機

作者：時間：2023-03-14 來源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

北京時間 3 月 14 日消息，人工智能聊天機器人 ChatGPT 一經(jīng)推出便火爆全球，但外界可能不知道，ChatGPT 之所以能夠如此智能，背后依托的是微軟公司為它打造的一臺昂貴的超級計算機。

本文引用地址：http://www.butianyuan.cn/article/202303/444380.htm

微軟超級計算機使用了上萬顆英偉達GPU

微軟超級計算機使用了上萬顆英偉達 GPU

2019 年，當微軟向 ChatGPT 開發(fā)商 OpenAI 投資 10 億美元時，它同意為這家人工智能研究創(chuàng)業(yè)公司打造一臺龐大的尖端超級計算機。唯一的問題是：微軟沒有 OpenAI 需要的那樣的東西，也無法完全確定它能在 Azure 云服務中構(gòu)建這么大的東西而不會破壞它。

當時，OpenAI 正試圖訓練一套規(guī)模越來越大的人工智能程序，也就是“模型”，后者正在吸收越來越大的數(shù)據(jù)量，學習越來越多的參數(shù)。這些參數(shù)是人工智能系統(tǒng)通過訓練和再訓練得出的變量。這意味著，OpenAI 需要在很長一段時間內(nèi)使用強大的云計算服務。

上萬顆芯片、數(shù)億投資

為了克服這一挑戰(zhàn)，微軟不得不想辦法將數(shù)萬顆英偉達 A100 圖形芯片 (訓練人工智能模型的主力) 組合在一起，并改變服務器在機架上的位置以防止斷電。微軟負責云計算和人工智能的執(zhí)行副總裁斯科特?格思里 (Scott Guthrie) 不愿透露該項目的具體成本，但表示“可能不止”幾億美元。

“我們構(gòu)建了一個可以在超大規(guī)模范圍內(nèi)運行并且可靠的系統(tǒng)架構(gòu)。這就是 ChatGPT 成為可能的原因，”微軟 Azure 人工智能基礎設施總經(jīng)理尼迪?查普爾 (Nidhi Chappell) 表示，“它是從中得出的一個模型，未來還會有很多很多其他的模型。”

ChatGPT靠的是超級計算機訓練

ChatGPT 靠的是超級計算機訓練

這項技術(shù)幫助 OpenAI 發(fā)布了 ChatGPT，后者在去年 11 月發(fā)布幾天后就吸引了 100 多萬用戶，現(xiàn)在正被納入其他公司的商業(yè)模式，從億萬富翁對沖基金創(chuàng)始人肯?格里芬 (Ken Griffin) 運營的公司，到外賣公司 Instacart。隨著 ChatGPT 等生成式人工智能工具越來越受到企業(yè)和消費者的興趣，微軟、亞馬遜公司和谷歌等云服務提供商將面臨更大的壓力，需要確保他們的數(shù)據(jù)中心能夠提供所需的巨大計算能力。

現(xiàn)在，微軟使用它為 OpenAI 構(gòu)建的同一套資源來訓練和運行自己的大型人工智能模型，包括上個月推出的新必應搜索機器人。微軟還向其他客戶銷售該系統(tǒng)。作為微軟與 OpenAI 擴大合作協(xié)議，追加 100 億美元投資的一部分，該軟件巨頭已經(jīng)在研究下一代人工智能超級計算機。

“我們不想把它打造成定制產(chǎn)品，它一開始是一個定制產(chǎn)品，但我們總是想辦法把它打造成通用型產(chǎn)品，這樣任何想訓練大型語言模型的人都可以利用同樣的改進，”格思里在一次采訪中表示，“這真的能夠幫助我們成為使用更廣泛的人工智能云?！?/p>

訓練一個龐大的人工智能模型需要在一個地方擁有大量相互連接的圖形處理單元，就像微軟組裝的人工智能超級計算機一樣。一旦模型投入使用，回答用戶提出的所有查詢 —— 稱之為推理 —— 需要稍微不同的設置。微軟還部署了用于推理的圖形芯片，但這些成千上萬個處理器在地理上分散在公司的 60 多個數(shù)據(jù)中心區(qū)域。微軟周一在一篇博客文章中表示，現(xiàn)在該公司正在為人工智能工作負載添加最新的英偉達圖形芯片 H100，以及最新版本的英偉達 Infiniband 網(wǎng)絡技術(shù)，以更快地共享數(shù)據(jù)。

微軟Azure云服務

微軟 Azure 云服務

目前，新必應搜索仍處于預覽階段。微軟正在從等待名單中逐漸增加更多用戶。格思里的團隊每天與大約 24 員工舉行會議，后者被稱之為“后勤維修人員”，這一稱呼原指一群在比賽中調(diào)整賽車的機械師。該小組的工作是弄明白如何讓更強的計算能力快速上線，以及解決突然出現(xiàn)的問題。

“這很像是一種碰頭會，就像是，‘嘿，任何人都有好主意，讓我們今天把它放在桌面上討論它，弄清楚好吧，我們可以在這里節(jié)省幾分鐘嗎？我們可以節(jié)省幾個小時嗎？幾天？’”格思里表示。

小錯會釀成大禍

云服務依賴的是成千上萬個不同的部件和物品，包括服務器的各個部件、管道、建筑物的混凝土、不同的金屬和礦物，任何一個部件的推遲或供應不足，無論多么微小，都可能導致功虧一簣。最近，維修人員不得不處理電纜托盤的短缺問題。電纜托盤是一種籃子狀的精巧裝置，用來固定從機器上脫落的電纜。因此，他們設計了一種新的電纜托盤，使得微軟可以自己制造，也可以找地方購買。格思里說，他們還在研究如何盡可能多地壓縮世界各地現(xiàn)有數(shù)據(jù)中心的服務器，這樣他們就不必等待新的大樓了。

當 OpenAI 或微軟訓練一個大型 AI 模型時，這些工作是一次性完成的。它被分配到所有的 GPU 上，某些時候各個單元需要相互交流來分享它們所做的工作。對于人工智能超級計算機，微軟必須確保處理所有芯片之間通信的網(wǎng)絡設備能夠處理這種負載，并且必須開發(fā)出能夠充分利用 GPU 和網(wǎng)絡設備的軟件。該公司現(xiàn)在推出了一款軟件，可以訓練具有數(shù)十萬億個參數(shù)的模型。

由于所有機器都是同時啟動的，微軟不得不考慮它們的放置位置和電源的位置。格思里說，否則，你最終會得到數(shù)據(jù)中心版本的結(jié)果，就像你在廚房里同時打開微波爐、烤面包機和吸塵器一樣。