用Transformer定義所有ML模型，特斯拉AI總監(jiān)Karpathy發(fā)推感嘆AI融合趨勢

發(fā)布人：計算機(jī)視覺工坊時間：2021-12-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

特斯拉 AI 總監(jiān) Andrej Karpathy 連發(fā)多條推文表示，AI 不同領(lǐng)域（視覺、語音、自然語言等）正在打通，融合速度令人驚嘆。

轉(zhuǎn)自《機(jī)器之心》

今日，特斯拉 AI 總監(jiān)、Autopilot Vision 團(tuán)隊領(lǐng)導(dǎo)人 Andrej Karpathy 在推特上發(fā)文，對 AI 領(lǐng)域正在進(jìn)行中的融合（consolidation）表示驚嘆。

他表示，「10 年前，視覺、語音、自然語言、強(qiáng)化學(xué)習(xí)等都是完全分離的，甚至沒有跨領(lǐng)域的論文。方法也完全不同，通常不是基于機(jī)器學(xué)習(xí)。」

從 2010 年開始，視覺、語言、自然語言、強(qiáng)化學(xué)習(xí)等領(lǐng)域的壁壘逐漸打破，它們開始轉(zhuǎn)向同一個技術(shù)方向，即機(jī)器學(xué)習(xí)，特別是神經(jīng)網(wǎng)絡(luò)。它們使用的網(wǎng)絡(luò)架構(gòu)具有多樣性，但至少論文開始讀起來更加相似，基本上都用到了大型數(shù)據(jù)集和網(wǎng)絡(luò)優(yōu)化。

隨著 AI 技術(shù)的發(fā)展，近兩年，不同領(lǐng)域模型架構(gòu)似乎也變得相同起來。很多研究者開始專注于 Transformer 架構(gòu)，在此基礎(chǔ)上做較小的改動以進(jìn)行研究。

例如 2018 誕生的 GPT，1.17 億參數(shù)；2019 年 GPT-2，15 億參數(shù)；2020 年更是將其擴(kuò)展到 1750 億參數(shù) GPT-3。Karpathy 基于 PyTorch，僅用 300 行左右的代碼就寫出了一個小型 GPT 訓(xùn)練庫，并將其命名為 minGPT，這個 minGPT 能夠進(jìn)行加法運(yùn)算和字符級的語言建模，而且準(zhǔn)確率還不錯。核心的 minGPT 庫包含兩個文檔：mingpt/model.py 和 mingpt/trainer.py。前者包含實(shí)際的 Transformer 模型定義，大約 200 行代碼，后者是一個與 GPT 無關(guān)的 PyTorch 樣板文件，可用于訓(xùn)練該模型。

部分代碼截圖。

197 行完整代碼：https://github.com/karpathy/minGPT/blob/master/mingpt/model.py

隨著模型架構(gòu)的融合，現(xiàn)在，我們可以向模型輸入詞序列、圖像 patch 序列、語音序列、強(qiáng)化學(xué)習(xí)序列（狀態(tài)、行為、獎勵）。我們可以在條件設(shè)置中添加任意 token，這種模式是極其簡單、靈活的建模框架。

即使是在某個領(lǐng)域（如視覺）內(nèi)部，過去在分類、分割、檢測和生成任務(wù)上存在一些差異。但是，所有這些也正在轉(zhuǎn)換為相同的框架，例如 patch 的檢測 take 序列和邊界框的輸出序列。

現(xiàn)在，區(qū)別性特征主要包括以下幾個方面：

1）數(shù)據(jù)

2）將自身問題映射到向量序列以及從向量序列映射出自身問題的輸入 / 輸出規(guī)范

3）位置編碼器的類型以及注意力 mask 中針對特定問題的結(jié)構(gòu)化稀疏模式

所以，從技術(shù)上來說，AI 領(lǐng)域的方方面面，包括前景、論文、人才和想法突然之間變得極其相關(guān)。每個人基本上都在使用相同的模型，大多數(shù)改進(jìn)和想法可以快速地在所有 AI 領(lǐng)域「復(fù)制粘貼」（copy paste）。

正如其他很多人注意到并指出的那樣，新大腦皮質(zhì)（neocortex）在其所有的輸入模態(tài)中也有一個高度統(tǒng)一的架構(gòu)。也許自然界偶然發(fā)現(xiàn)了一個非常相似的強(qiáng)大架構(gòu)，并以類似的方式復(fù)制了它，并只在一些細(xì)節(jié)上做了改變。

這種架構(gòu)上的融合將使我們專注于軟硬件和基礎(chǔ)設(shè)施建設(shè)，進(jìn)一步加速 AI 領(lǐng)域的進(jìn)展。「無論如何，這是激動人心的時刻?！?/p>

對于 Andrej Karpathy 描述的 AI 融合趨勢，網(wǎng)友也紛紛發(fā)表意見。

推特網(wǎng)友 @Neural Net Nail 表示，「這是一個有價值的見解。融合將加速 AI 領(lǐng)域的創(chuàng)新步伐，在邊緣端使用 AI 的尖端產(chǎn)品變得更加可行。我想，變化（variation）才是質(zhì)量的最大敵人?！?/p>

網(wǎng)友 @sisil mehta 也認(rèn)為，「ML 基礎(chǔ)設(shè)施迎來了激動人心的時刻。隨著模型架構(gòu)的融合，建?？蚣芎突A(chǔ)設(shè)施也將融合。我當(dāng)然希望 PyTorch Lightning 也會這樣。」

網(wǎng)友 @Marcos Pereira 表示，「一方面，處處都在用 transformers，我們已經(jīng)遇到了障礙，需要創(chuàng)新；另一方面，處處都在用 transformers，所以跟上來吧?！?/p>

原文出自 @Andrej Karpathy 的推特：https://twitter.com/karpathy/status/1468370605229547522

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

用Transformer定義所有ML模型，特斯拉AI總監(jiān)Karpathy發(fā)推感嘆AI融合趨勢

相關(guān)推薦

技術(shù)專區(qū)