新聞中心

EEPW首頁 > 編輯觀點(diǎn) > OpenAI迎戰(zhàn)Deepseek

OpenAI迎戰(zhàn)Deepseek

作者:陳玲麗 時間:2025-02-13 來源:電子產(chǎn)品世界 收藏

1月27日,DeepSeek應(yīng)用登頂蘋果美國地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT;同日,蘋果中國區(qū)應(yīng)用商店免費(fèi)榜顯示,DeepSeek成為中國區(qū)第一。而1月11日,DeepSeek的App才剛剛上線iOS和安卓的應(yīng)用市場。

本文引用地址:http://www.butianyuan.cn/article/202502/466922.htm

640.png

DeepSeek橫空出世

DeepSeek,成立于2023年7月17日,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。在團(tuán)隊(duì)配置上,相比擁有1200名研究人員,DeepSeek團(tuán)隊(duì)只有139名研發(fā)人員,其中算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人。

2023年5月,DeepSeek創(chuàng)始人梁文鋒開始進(jìn)入通用人工智能(AGI)領(lǐng)域,從公開的工作經(jīng)歷和職業(yè)生涯來看,他的創(chuàng)業(yè)范疇橫跨金融和人工智能領(lǐng)域,在量化投資和高性能計(jì)算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗(yàn)。2015年,30歲的梁文鋒和朋友一起創(chuàng)辦了杭州幻方科技有限公司,立志成為世界頂級的量化對沖基金;2016年10月,幻方量化(High-Flyer)推出第一個AI模型,第一份由深度學(xué)習(xí)生成的交易倉位上線執(zhí)行;到2017年底,幾乎所有的量化策略都采用AI模型計(jì)算;2019年,幻方量化成為國內(nèi)首個募資超過1000億元的的量化對沖基金。

在AI科技領(lǐng)域,美國長期以來都是創(chuàng)新的引領(lǐng)者,一直以來都被認(rèn)為是追趕者的中國公司,第一次在AI行業(yè)中站上世界舞臺的中心。而且,DeepSeek的核心研究員都是中國本土培養(yǎng)的博士,沒有海外留學(xué)的背景,在一定程度上打破了技術(shù)創(chuàng)新只能在美國出現(xiàn)的刻板印象。

DeepSeek的全球熱議還帶來了美股的驚天震動,英偉達(dá)單日大跌近17%,市值蒸發(fā)近6000億美元(相當(dāng)于人民幣4.3萬億),創(chuàng)美股單日跌幅最高紀(jì)錄。原因不僅是因?yàn)镈eepSeek訓(xùn)練成本下降,帶來了芯片需求可能會下降的恐慌,也源自傳統(tǒng)的美國科技資本邏輯受到的沖擊。

出道即巔峰

DeepSeek可以說是“出道即巔峰”,2024年12月26日宣布旗下全新系列模型DeepSeek-V3首個版本上線并同步開源,總參數(shù)達(dá)6710億,采用創(chuàng)新的MoE架構(gòu)和FP8混合精度訓(xùn)練,并公布了長達(dá)53頁的訓(xùn)練和技術(shù)細(xì)節(jié)。真正讓DeepSeek火出圈的是 —— 其總訓(xùn)練成本只有557.6萬美元,而GPT-4o的約為1億美元,使用25000個GPU芯片。

在DeepSeek發(fā)表的原始報告中有詳細(xì)解釋這筆成本的計(jì)算:在預(yù)訓(xùn)練階段,每兆個token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時,也就是說在擁有2048個H800 GPU的叢集上需要3.7天。因此,預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,耗費(fèi)2664K GPU小時。加上上下文長度擴(kuò)充所需的119K GPU小時和后制訓(xùn)練所需的5K GPU小時,DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時。假設(shè)H800 GPU的租賃價格為每GPU小時2美元,總訓(xùn)練成本僅為557.6萬美元。

DeepSeek-V3通過數(shù)據(jù)與算法層面的優(yōu)化,大幅提升利用效率,實(shí)現(xiàn)了協(xié)同效應(yīng)。這證明,模型效果不僅依賴于投入,即使在硬件資源有限的情況下,依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新,仍然可以高效利用算力,實(shí)現(xiàn)較好的模型效果。

· DeepSeekMoE(Mixture of Experts,混合專家)

傳統(tǒng)稠密模型,比如GPT-3.5,在訓(xùn)練和推理過程中激活全部參數(shù)。然而事實(shí)上,并非模型的每個部分都是當(dāng)前任務(wù)所必需的。因此,MoE的理念是將模型區(qū)分為多個「專家」,推理時只激活對任務(wù)必要的專家。MoE模型的效率優(yōu)勢正源于其選擇性激活機(jī)制,與傳統(tǒng)模型(如Llama)需要激活全部網(wǎng)絡(luò)權(quán)重不同,MoE通過對計(jì)算網(wǎng)絡(luò)進(jìn)行分類,顯著降低計(jì)算成本。

MoE模型此前未被廣泛應(yīng)用的主要障礙是訓(xùn)練難度大,容易出現(xiàn)信息分類不當(dāng),DeepSeek V3通過創(chuàng)新性的算法和工程優(yōu)化,成功突破這一限制。DeepSeek在V3模型論文中稱,相較于傳統(tǒng)MoE,DeepSeekMoE使用了“更細(xì)粒度”的專家,使專家更加專門化,單個專家僅數(shù)十億參數(shù),提升了任務(wù)適配性;同時,DeepSeekMoE將一些專家隔離為“共享專家”,用于減輕專家之間的知識冗余,從而使V3模型在激活相同數(shù)量專家和參數(shù)的情況下表現(xiàn)更好。

· MTP(Multi-Token Prediction,多tokens預(yù)測)

傳統(tǒng)回答用戶需求時只預(yù)測下一個token,V3通過MTP技術(shù)同時預(yù)測下2個token。這里的關(guān)鍵是第二個預(yù)測token的準(zhǔn)確性問題(即「接受率」,預(yù)測的token能被最終采用的比例)。DeepSeek評估稱,在不同生成主題中,其模型所生成的第二個token的接受率達(dá)到了85%至90%。這種高接受率意味著V3能夠以接近傳統(tǒng)單token預(yù)測模式兩倍的速度來生成文本。

· FP8:低精度訓(xùn)練

FP8的意思是8位浮點(diǎn)(floating-point),數(shù)字越高,意味著計(jì)算精度越高,但與此同時計(jì)算速度會降低。DeepSeek使用了FP8數(shù)據(jù)格式來訓(xùn)練V3,并在模型計(jì)算的不同環(huán)節(jié)實(shí)現(xiàn)了數(shù)據(jù)在FP8、BF16、FP32等不同精度下的靈活和交替使用,即一種混合精度框架。在參數(shù)通信的部分過程,DeepSeek也做到了FP8精度的傳輸。通過這一過程,DeepSeek實(shí)現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用,并「首次在超大規(guī)模模型上驗(yàn)證了FP8混合精度訓(xùn)練框架的有效性」。

DeepSeek V3的大量創(chuàng)新都與為克服使用H800而不是H100所帶來的內(nèi)存帶寬不足有關(guān)。為此,DeepSeek甚至繞過了英偉達(dá)的編程工具CUDA,對每塊H800芯片上132個處理單元中的20個進(jìn)行了重新編程,以專門用于管理跨芯片通信。DeepSeek以1/11的算力、僅2000個GPU芯片訓(xùn)練出性能超越GPT-4o的,雙方的成本至少是10倍的差距。「性價比」是商業(yè)社會中的制勝法寶之一,憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,DeepSeek迅速吸引了全球關(guān)注,且熱度一直不減。

算力不再是“緊箍咒”?

DeepSeek的出現(xiàn)打破了英偉達(dá)等科技巨頭的算力路徑,走出了另一條路也就是說,提高AI模型能力不再需要那么高昂的門檻了,即不一定要提升很高的參數(shù)規(guī)模就能實(shí)現(xiàn)很高的性能,可能對算力需求至少降到10倍以上。在數(shù)據(jù)方面,與“海量數(shù)據(jù)投喂”的方式不同,DeepSeek利用算法把數(shù)據(jù)進(jìn)行總結(jié)和分類,經(jīng)過選擇性處理之后,輸送給,提高了訓(xùn)練效率也降低了的成本。

DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對算力投入的需求將大幅下降,但由經(jīng)濟(jì)學(xué)家威廉·斯坦利·杰文斯提出的杰文斯悖論:當(dāng)某種資源的使用效率提高、獲取變得更容易時,其總體使用量往往不減反增。DeepSeek的發(fā)展也呈現(xiàn)出類似的趨勢:算力效率的提升并未減少對算力的需求,反而推動了更多高算力應(yīng)用的落地,使得行業(yè)對算力的需求持續(xù)增長。不過短期內(nèi),向英偉達(dá)大手筆下單的技術(shù)公司會變得更謹(jǐn)慎。

與ChatGPT等其他聊天機(jī)器人的不同之處在于,DeepSeek的同名聊天機(jī)器人在回應(yīng)用戶提問時,會將思維鏈條(Chain of Thought,CoT)完全展示出來,其作為機(jī)器人認(rèn)真揣摩用戶需求、試圖將用戶所有說出口或隱晦表達(dá)的情緒都安慰到位的“內(nèi)心活動”激發(fā)了大量用戶的熱情。商業(yè)的本質(zhì)在于創(chuàng)造稀缺,無論在人類成員還是AI成員中,共情能力都是稀缺品。

640-2.jpeg

?2025年1月20日?:發(fā)布新一代推理模型DeepSeek-R1,在各項(xiàng)性能與的GPT-4o持平,并開源?。V3模型和R1系列模型都是基于V3模型的更基礎(chǔ)版本V3-Base開發(fā)的,相較于V3(類4o)模型,R1(類o1)系列模型進(jìn)行了更多自我評估、自我獎勵式的強(qiáng)化學(xué)習(xí)作為后訓(xùn)練。在R1之前,業(yè)界大模型普遍依賴于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),但R1系列模型放棄了RLHF中的HF(human feedback,人類反饋)部分,只留下純粹的RL(強(qiáng)化學(xué)習(xí))。

推理成本上,OpenAI o1每百萬輸入和百萬輸出token分別收取15美元和60美元,而DeepSeek R1同樣輸入與輸出的價格分別只要0.55美元和2.19美元,差不多只是前者的3%。

640-3.jpeg

國外獨(dú)立評測機(jī)構(gòu)Artificial Analysis測試了DeepSeek-V3后得出的結(jié)論:DeepSeek-V3超越了迄今為止所有開源模型。需要注意的是,對比Android與iOS的生態(tài)隔離,開源與閉源大模型均基于Transformer架構(gòu),差異是在數(shù)據(jù)、算法運(yùn)用、工程等維度,并非是截然不同的技術(shù)路線。

由于DeepSeek這次的開源,讓行業(yè)最領(lǐng)先的水平平權(quán)了,會加速推動AI進(jìn)化的速度,進(jìn)而推動必要條件的成熟,帶來新的應(yīng)用機(jī)會。我們在討論DeepSeek開源的時候,都指的是LLM大語言模型,但是除了語言模型,AI還有非常重要并行的領(lǐng)域是多模態(tài)模型。DeepSeek在近期也發(fā)布了圖像模型Janus pro,然而效果一般,在多模態(tài)的領(lǐng)域,開源還有更長的路要走。

DeepSeek的崛起標(biāo)志著全球人工智能競賽的“轉(zhuǎn)折點(diǎn)”,證明中國可以利用更少的資源與大科技公司競爭。DeepSeek發(fā)布的較低成本的開源AI模型爆火,這也讓OpenAI重新思考,需要“弄清楚另一種開源戰(zhàn)略”。外媒表示,盡管不太可能很快看到OpenAI開源其任何模型,但DeepSeek的沖擊肯定會讓OpenAI有所改變。

OpenAI迎戰(zhàn)

目前,OpenAI的ChatGPT已坐擁超3億月活躍用戶和超1100萬付費(fèi)用戶,收入主要來自ChatGPT付費(fèi)訂閱收入和API接口服務(wù)收入。其中,ChatGPT Plus每月收費(fèi)20美元,ChatGPT Pro每月收費(fèi)高達(dá)200美元,ChatGPT Plus和ChatGPT Pro主要面向個人用戶,是OpenAI收入中最大的部分。2024年12月中,OpenAI首席財務(wù)官曾透露,OpenAI計(jì)劃推出一款月訂閱費(fèi)高達(dá)2000美元的人工智能產(chǎn)品,稱之為AI Agent(AI代理),并將2025年的營收目標(biāo)從80億美元上調(diào)到120億美元。

OpenAI在市場上占得了先機(jī),有著全球領(lǐng)先的AI大模型如GPT-4o、o1,可以借助自家閉源AI模型在技術(shù)上領(lǐng)先的優(yōu)勢繼續(xù)發(fā)展更多的付費(fèi)用戶。而DeepSeek在AI領(lǐng)域突然半路殺出,可能就會對ChatGPT的付費(fèi)商業(yè)模式帶來強(qiáng)烈的沖擊。

面對DeepSeek的強(qiáng)勢挑戰(zhàn),OpenAI帶來了全新產(chǎn)品 —— ,是一個使用推理來綜合大量在線信息并為用戶完成多步驟研究任務(wù)的智能體,旨在幫助用戶進(jìn)行深入、復(fù)雜的信息查詢與分析,最終形成一份專業(yè)水準(zhǔn)的綜合報告。為實(shí)現(xiàn)這一點(diǎn),OpenAI針對需要使用瀏覽器和Python工具的現(xiàn)實(shí)任務(wù)進(jìn)行訓(xùn)練,采用的強(qiáng)化學(xué)習(xí)方法與其首個推理模型o1相同。

640-2.png

這樣的能力使得原本需要人類數(shù)小時才能完成的研究任務(wù),縮短至三十分鐘左右,目前Pro用戶現(xiàn)已可用。使用非常簡單,只需在ChatGPT界面選擇“”模式,輸入研究需求,甚至可以上傳參考資料。整個研究過程會實(shí)時顯示在側(cè)邊欄,研究完成后用戶會收到通知。

盡管Deep Research展現(xiàn)出強(qiáng)大的功能,但OpenAI也承認(rèn)其仍存在一些局限性,如信息準(zhǔn)確性和報告格式的瑕疵。隨著使用量的增加,OpenAI計(jì)劃不斷優(yōu)化模型,力求解決這些問題。未來的更新中,Deep Research還將支持更多圖表和可視化內(nèi)容的展示,以進(jìn)一步提升清晰度并提供更多背景信息。OpenAI首席執(zhí)行官Sam Altman曾表示在人工智能領(lǐng)域,“最重要的進(jìn)步領(lǐng)域?qū)@推理能力展開”,在OpenAI看來,Deep Research功能朝著其開發(fā)AGI的宏大目標(biāo)邁出了重要一步。

雖然英偉達(dá)的A100、H100等性能出色,但價格高昂,加之龐大的需求,芯片也就成為了一項(xiàng)巨大的支出,這也促使廠商自研芯片降低成本,減少對英偉達(dá)的依賴。最新消息顯示,OpenAI正積極推進(jìn)完成自家首款自研人工智能芯片,并將采用臺積電3nm制程工藝,計(jì)劃2026年實(shí)現(xiàn)大規(guī)模生產(chǎn)。

目前,OpenAI的內(nèi)部設(shè)計(jì)芯片團(tuán)隊(duì)有40人,由谷歌的前工程師Richard Ho帶領(lǐng)。此外,OpenAI在設(shè)計(jì)芯片上或?qū)⑴c博通合作。這不僅是對芯片設(shè)計(jì)的一次實(shí)戰(zhàn)檢驗(yàn),更是OpenAI向大規(guī)模自主芯片生產(chǎn)邁出的關(guān)鍵一步。OpenAI自研的芯片,初期在AI模型的運(yùn)行中將扮演有限的角色,但同樣也具備用于訓(xùn)練AI模型的能力,未來可能用于大模型的訓(xùn)練,如果進(jìn)展順利也計(jì)劃研發(fā)性能更強(qiáng)的芯片。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉