博客專欄

EEPW首頁(yè) > 博客 > 斯坦福AI團(tuán)隊(duì)“套殼”清華系開源大模型被實(shí)錘!被揭穿后全網(wǎng)刪庫(kù)跑路

斯坦福AI團(tuán)隊(duì)“套殼”清華系開源大模型被實(shí)錘!被揭穿后全網(wǎng)刪庫(kù)跑路

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-06-03 來(lái)源:工程師 發(fā)布文章
圖片

整理|冬梅

5 月 29 日,一個(gè)來(lái)自斯坦福的作者團(tuán)隊(duì)在 Medium 上發(fā)布了一篇名為《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,文章中稱他們訓(xùn)練出了一個(gè)比 GPT-4V、Gemini Ultra、Claude Opus 更強(qiáng)的 SOTA 開源多模態(tài)模型,尺寸比 GPT4-V 小 100 倍,訓(xùn)練成本僅需 500 美元。

斯坦福 AI 團(tuán)隊(duì)“套殼”清華系開源大模型被實(shí)錘

該團(tuán)隊(duì)成員 Aksh Garg 也在 X(原 Twitter)上發(fā)貼介紹了這一模型的特點(diǎn)。沒(méi)過(guò)多久該帖的瀏覽量已超過(guò) 30 萬(wàn),被轉(zhuǎn)發(fā)了 300 多次,Llama 3-V 的項(xiàng)目一下子沖到了 HuggingFace 首頁(yè)。

圖片

隨著該項(xiàng)目熱度的持續(xù)走高,不少 X 和 HuggingFace 上的網(wǎng)友注意到,Llama 3-V 總是讓人有種似曾相識(shí)的感覺,好像在哪里見到過(guò)!

圖片

網(wǎng)友們接著深扒后發(fā)現(xiàn), Llama 3-V 似乎,有點(diǎn),好像是套殼了清華系開源大模型 MiniCPM-Llama3-V 2.5。

據(jù)悉,MiniCPM-Llama3-V 2.5 是由清華系 AI 公司面壁智能推出并開源的 MiniCPM 系列最新的端側(cè)多模態(tài)模型,總參數(shù)量為 8B,支持 30+ 種語(yǔ)言,多模態(tài)綜合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用閉源模型,OCR 能力及指令跟隨能力得到進(jìn)一步提升,可精準(zhǔn)識(shí)別難圖、長(zhǎng)圖、長(zhǎng)文本。

面對(duì)網(wǎng)友們的質(zhì)疑,斯坦福這支 AI 團(tuán)隊(duì)也坐不住了,他們表示只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer,并且宣稱在 MiniCPM-Llama3-V 2.5 發(fā)布前就開始了這項(xiàng)工作。

圖片

但他們的解釋再次遭到了質(zhì)疑。

通常情況下,一款模型及其詳細(xì)的 tokenizer 往往是在其發(fā)布后才能被外人知曉,那么斯坦福這支 AI 團(tuán)隊(duì)如何能在 MiniCPM-Llama3-V 2.5 發(fā)布之前就獲取到這些信息?

這件事持續(xù)在網(wǎng)上發(fā)酵。

6 月 2 日,不死心的網(wǎng)友在 Llama3-V 的 GitHub Issue 上發(fā)布質(zhì)疑,或許是因?yàn)樾奶?,該條質(zhì)疑的評(píng)論很快就被 Llama3-V 團(tuán)隊(duì)刪除。

幸運(yùn)的是,發(fā)布質(zhì)疑的網(wǎng)友早已機(jī)智地提前截圖保存了自己在 GitHub Issue 上發(fā)布的內(nèi)容。

圖片

這名網(wǎng)友列舉了在他看來(lái) Llama3-V“套殼” MiniCPM-Llama3-V 2.5 的四點(diǎn)證據(jù):

證據(jù)一:模型結(jié)構(gòu)和代碼幾乎是雙胞胎兄弟。

比如,套殼的 Llama3-V 與 MiniCPM-Llama3-V 2.5 幾乎“共用”了完全相同的模型結(jié)構(gòu)和代碼。Llama3-V 的模型結(jié)構(gòu)和配置文件與 MiniCPM-Llama3-V 2.5 完全相同,只是變量名不同。

圖片

左圖:MiniCPM-Llama3-V 2.5右圖:Llama3-V

證據(jù)二:Llama3-V 的代碼似乎就是 MiniCPM-Llama3-V 2.5 的代碼。更令人震驚的是,Llama3-V 僅僅只是進(jìn)行了一些重新格式化并把一些變量重新做了命名,比如圖像切片、分詞器、重采樣器、數(shù)據(jù)加載等變量,下圖是一些示例。

圖片

證據(jù)三:Llama3-V 的作者表示他們“引用了 LLaVA-UHD 作為架構(gòu)”,還列出了差異點(diǎn)(關(guān)于 ViT 和 LLM 的選擇)。但是他們并沒(méi)有提到,這個(gè)項(xiàng)目的具體實(shí)現(xiàn)與 MiniCPM-Llama3-V 2.5 極其相似,卻在空間模式等許多方面與 LLaVA-UHD 有非常多的差異。Llama3-V 也具有與 MiniCPM-Llama3V 2.5 相同的分詞器,包括 MiniCPM-Llama3-V 2.5 新定義的特殊符號(hào)。

圖片


圖片

證據(jù)四:最初 Llama3-V 的作者在上傳代碼時(shí)直接導(dǎo)入了 MiniCPM-V 的代碼,然后將名稱更改為 Llama3-V。

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6

圖片

面壁智能團(tuán)隊(duì)下場(chǎng)實(shí)錘,斯坦福 AI 團(tuán)隊(duì)連夜刪庫(kù)跑路

在屢遭質(zhì)疑后,斯坦福 AI 團(tuán)隊(duì)已經(jīng)被逼到了不回應(yīng)實(shí)在說(shuō)不過(guò)去的地步了,有網(wǎng)友開臉貼大該項(xiàng)目的作者,“你們有沒(méi)有勇氣面對(duì)事實(shí)”?

圖片

這種情況下,該團(tuán)隊(duì)成員不得不對(duì)網(wǎng)友關(guān)注的問(wèn)題進(jìn)行了回復(fù)。該項(xiàng)目中的一位作者表示:

“你們說(shuō)我們抄襲簡(jiǎn)直是沒(méi)影兒的事兒。Llama3-V 推理存在 bug,而 MiniCPM 的配置可以有效解決該問(wèn)題,這就是為什么我們使用了相同的配置。此外,我已經(jīng)指出了架構(gòu)是相似的,但 MiniCPM 的架構(gòu)來(lái)自 Idéfics。SigLIP 也來(lái)自 Idéfics。我們遵循 Idéfics 論文中的那些內(nèi)容。LLava UHD 來(lái)自他們的實(shí)驗(yàn)室,我也已經(jīng)指出了這一點(diǎn)。此外,我還強(qiáng)調(diào)了更多內(nèi)容,即它是相同的架構(gòu),但該架構(gòu)是基于綜合研究的,你怎么能說(shuō)它是 MiniCPM 呢?MiniCPM 的代碼,看起來(lái),視覺部分的也是從 Idéfics 那里使用的?!?/span>

不少網(wǎng)友還注意到,Llama3-V 在 MiniCPM-Llama3-V 2.5 項(xiàng)目發(fā)布之前就已經(jīng)使用了 MiniCPM-Llama3-V 2.5 的 tokenizer 。有一些用戶在 Twitter 和 HuggingFace 上指出以上問(wèn)題后,Llama3-V 的作者表示他們只是使用了 MiniCPM-Llama3-V 2.5 的分詞器(tokenizer)。他們還聲稱在 MiniCPM-Llama3-V 2.5 發(fā)布之前就開始了 Llama3-V 的工作。但令人無(wú)法解釋的是,他們?nèi)绾文茉?MiniCPM-Llama3-V 2.5 發(fā)布之前就獲取到其詳細(xì)的分詞器?

圖片

對(duì)此,Llama3-V 項(xiàng)目作者反駁說(shuō)從已經(jīng)發(fā)布的上一代 MinicPM-V-2 項(xiàng)目里拿的標(biāo)記器。但實(shí)際上,有網(wǎng)友留意到,MiniCPM-V-2 的 tokenizer 與 MinicPM-Llama3-V2.5 完全不同,在 Huggingface 里是兩個(gè)文件。既不是同一個(gè) tokenizer 件,文件大小也完全不同。MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 組成,MiniCPM-v2 因?yàn)樵?Llama 3 開源之前就發(fā)布的,不會(huì)有 Llama 3 的分詞器。

Llama3-V 團(tuán)隊(duì)屢遭質(zhì)疑卻始終咬死不認(rèn)的態(tài)度,惹怒了面壁智能 MiniCPM-Llama3-V 2.5 團(tuán)隊(duì)的研究人員們。

6 月 3 日,面壁智能向 AI 前線列舉了一些 Llama3-V 團(tuán)隊(duì)抄襲的“實(shí)錘”。

面壁智能認(rèn)為,Llama3-V 項(xiàng)目的作者似乎并不完全理解 MiniCPM-Llama3-V 2.5 的架構(gòu),甚至也不理解他們自己的代碼。

如下圖 Llama3-V 的技術(shù)博客和代碼顯示, Llama3-V 的作者似乎沒(méi)有完全理解 MiniCPM-Llama3-V 2.5 的架構(gòu),甚至也不懂他們"自己"(假若真是他們所寫)的代碼。

感知器重采樣器(Perceiver resampler)是單層 cross-attention,而不是雙層 self-attention。但是下圖所示 Llama3-V 的技術(shù)博客里作者的理解很明顯是錯(cuò)的。另外 SigLIP 的 Sigmoid 激活也不用于訓(xùn)練多模態(tài)大語(yǔ)言模型,而僅用于預(yù)訓(xùn)練 SigLIP。

圖片

截圖來(lái)源:Llama3-V 的技術(shù)博客

圖片

截圖來(lái)源:Llama3-V 的代碼

面壁智能團(tuán)隊(duì)還表示:“另外視覺特征提取不需要 Sigmoid 激活,但下圖所示 Llama3-V 的技術(shù)博客里作者的理解是錯(cuò)的,但代碼其實(shí)是正確的,這說(shuō)明作者壓根不理解自己的代碼”。

圖片

圖片

此外,Llama3-V 相當(dāng)于 MiniCPM-Llama3-V 2.5 的加噪聲版本。

據(jù)網(wǎng)友反饋,當(dāng)運(yùn)行 Llama3-V 時(shí),作者提供的代碼無(wú)法與 HuggingFace 上的 checkpoint 配合使用。

然而令人啼笑皆非的是,當(dāng)把 Llama3-V 模型權(quán)重中的變量名更改為 MiniCPM-Llama3-V 2.5 的名稱后,模型可以成功運(yùn)行 MiniCPM-V 的代碼。這一下子幫忙解決了困擾 Llama3-V 作者一周的問(wèn)題。

圖片

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一個(gè)簡(jiǎn)單的高斯噪聲(由一個(gè)標(biāo)量參數(shù)化),你會(huì)預(yù)期得到什么結(jié)果?

new_dict = {}
for k, v in model.state_dict().items():
   torch.cuda.manual_seed_all(42)
   new_dict[k] = v + torch.randn_like(v) / 708
model.load_state_dict(new_dict)

結(jié)果是會(huì)得到一個(gè)行為與 Llama3-V 極為相似的模型。

圖片

然而,這些還不夠。更更更炸裂的是,Llama3-V 團(tuán)隊(duì)連清華團(tuán)隊(duì)內(nèi)部并未對(duì)外公開的私有數(shù)據(jù)都能拿到???

圖片

據(jù)面壁智能內(nèi)部團(tuán)隊(duì)透露,Llama3-V 大模型居然能識(shí)別清華簡(jiǎn),OCR 表現(xiàn)對(duì)比也很驚人,這些清華大學(xué)內(nèi)部的私有數(shù)據(jù)他們又是如何拿到的呢?

MiniCPM-Llama3-V 2.5 的一個(gè)實(shí)驗(yàn)性功能是能夠識(shí)別清華簡(jiǎn),這是一種非常特殊且罕見的中國(guó)戰(zhàn)國(guó)時(shí)期(公元前 475 年至公元前 221 年)寫在竹簡(jiǎn)上的古文字。這些訓(xùn)練數(shù)據(jù)的采集和標(biāo)注均有由清華 NLP 實(shí)驗(yàn)室和面壁智能團(tuán)隊(duì)完成,相關(guān)數(shù)據(jù)尚未對(duì)外公開。經(jīng)過(guò)專有數(shù)據(jù)訓(xùn)練后,MiniCPM-Llama3-V 2.5 能夠初步識(shí)別清華簡(jiǎn)的文字,甚至連犯的錯(cuò)誤都一樣。

然而令人驚訝的是,不可能獲得專有數(shù)據(jù)訓(xùn)練的 Llama3-V 竟然也具有相同的能力!

圖片

下圖展示了 Llama3-V 在識(shí)別清華簡(jiǎn)的文字時(shí),其結(jié)果和 MiniCPM-Llama3-V 2.5 一致。

圖片

有趣的是,Llama3-V 在清華簡(jiǎn)識(shí)別犯錯(cuò)時(shí)竟然也和 MiniCPM-Llama3-V 2.5 一模一樣。

圖片

為謹(jǐn)慎起見,作者在 1000 張竹簡(jiǎn)圖像上測(cè)試了幾種基于 Llama3 的視覺 - 語(yǔ)言模型,并比較了每對(duì)模型的預(yù)測(cè)精確匹配。

結(jié)果顯示,正常情況下每?jī)蓚€(gè)模型之間的重疊為零,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之間的重疊竟然達(dá)到了驚人的 87%!此外,MiniCPM-Llama3-V 2.5 和 Llama3-V 甚至在錯(cuò)誤分布上也非常相似。Llama3-V 和 MiniCPM-Llama3-V 2.5 分別有 236 和 194 個(gè)錯(cuò)誤預(yù)測(cè),而其中重疊部分高達(dá) 182 個(gè)。

另外,這個(gè)高斯噪聲對(duì)竹簡(jiǎn)字符也是有效的。

圖片

與 MiniCPM-Llama3-V 2.5 類似,Llama3-V 也顯示出了很強(qiáng)的 OCR 能力,甚至包括中文。

圖片

Prompt:請(qǐng)輸出圖片中的文字

MiniCPM-Llama3-V 2.5

### 標(biāo)題
9 倍像素更清晰

### 副標(biāo)題
難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別

### 正文
OCR 技術(shù)進(jìn)一步打磨,復(fù)雜推理與多模態(tài)識(shí)別能力再進(jìn)化,MiniCPM-Llama3-V2.5 對(duì)于難圖、長(zhǎng)圖、長(zhǎng)文本的精準(zhǔn)識(shí)別,再度帶來(lái)出眾表現(xiàn)!面壁自研高清圖像高效編碼技術(shù),我們可以高效編碼及無(wú)損識(shí)別 180 萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比、甚至「有點(diǎn)變態(tài)」的 1:9 極限比例圖像,突破了傳統(tǒng)技術(shù)僅能識(shí)別 20 萬(wàn)像素小圖的瓶頸。此前,MiniCPM-V 系列多模態(tài)模型就因?qū)τ诮志?、長(zhǎng)圖等困難場(chǎng)景的高效解析,贏得了良好口碑。

### 圖片描述
1. **180 萬(wàn)像素 **
  - 任意長(zhǎng)寬比
  - 圖像無(wú)損識(shí)別
  - 可支持
  - 1:9 極限寬高比

Llama3-V

### 標(biāo)題
9 倍像素更清晰

### 副標(biāo)題
難圖長(zhǎng)圖文本精準(zhǔn)識(shí)別

### 正文
OCR 技術(shù)進(jìn)一步打磨,復(fù)雜推理與多模態(tài)識(shí)別能力再進(jìn)化,MiniCPM-Llama3-V2.5 對(duì)于難圖、長(zhǎng)文本的精準(zhǔn)識(shí)別,再度帶來(lái)出眾表現(xiàn)。面壁自研高清圖像高效編碼技術(shù),我們可以高效編碼及無(wú)損識(shí)別 180 萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比、甚至「有點(diǎn)變態(tài)」的 1:9 極限比例圖像,突破了傳統(tǒng)技術(shù)僅能識(shí)別 20 萬(wàn)像素小圖的瓶頸。此前,MiniCPM-V 系列多模態(tài)模型就因?qū)τ诮志?、長(zhǎng)圖等困難場(chǎng)景的高效解析,贏得了良好口碑。

### 圖片描述
- **180 萬(wàn)像素 **:任意長(zhǎng)寬比,圖像無(wú)損識(shí)別,可支持。
- **1:9 極限寬高比 **:可支持。

同樣的事情也發(fā)生在內(nèi)部的 WebAgent 數(shù)據(jù)上,這是一個(gè)已經(jīng)整合但尚未發(fā)布的功能。

圖片

Q:
Actions History
click, input, click
Your Task
Can you give me a recipe for French butter cake?
Generate next actions to do this task.

minicpmv:
actions:
click,<box>32 273 477 508</box>
click,<box>32 273 477 508</box>

llama3v:
actions:
click,<box>32 273 477 508</box>
click,<box>32 273 477 508</box>

圖片

Q:
Your Task
有沒(méi)有關(guān)于《黑子的籃球》的新劇場(chǎng)版的消息?
Generate next actions to do this task.

minicpmv:
actions:
hover,<box>732 292 792 328</box>

llama3v:
actions:
hover,<box>715 292 802 328</box>

事情發(fā)酵至此,就在網(wǎng)友們都等著斯坦福 AI 團(tuán)隊(duì)再次發(fā)文力證清白時(shí),AI 前線留意到,該團(tuán)隊(duì)成員似乎集體“閉麥”,并且已經(jīng)刪除了他們?cè)?X 上官宣模型的推文,連帶著該項(xiàng)目在 Github 和 HuggingFace 上的庫(kù)也已經(jīng)刪干凈了。

Github 開源:

https://github.com/mustafaaljadery/llama3v(已刪庫(kù))

HuggingFace 開源:

https://huggingface.co/mustafaaljadery/llama3v(已刪庫(kù))

Medium 發(fā)布文章:

https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

Twitter 官宣模型:

https://twitter.com/AkshGarg03/status/1795545445516931355(已刪除)


而面壁智能團(tuán)隊(duì)成員也對(duì)此事進(jìn)行了最新回應(yīng),他們表示看到這個(gè)消息還是挺讓人傷心的。他們調(diào)查的結(jié)論是:

1、Llama3-V 可以使用更改參數(shù)名稱后的 MiniCPM-Llama3-V 2.5 的代碼和配置來(lái)運(yùn)行

2、它的行為類似于 MiniCPM-Llama3-V 2.5 在內(nèi)部數(shù)據(jù)上訓(xùn)練的未透露的實(shí)驗(yàn)特征,例如識(shí)別清華簡(jiǎn)(一種特殊類型的古代漢字)和 GUIAgent

3、它有點(diǎn)類似于噪聲版的 MiniCPM-Llama3-V 2.5?

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 斯坦福

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉