大模型亂斗 GPT-4迎來“雙子”星?
距離ChatGPT發(fā)布,已經(jīng)過去一年零一周。伴隨著ChatGPT的發(fā)布,OpenAI成為了人工智能領(lǐng)域最耀眼的公司,尤其是在大模型領(lǐng)域,它也是其他所有科技公司的追趕目標,當然也包括谷歌。
本文引用地址:http://butianyuan.cn/article/202312/453917.htm谷歌一直把「AI-first」作為公司戰(zhàn)略,2016年吸引了全球目光的AlphaGo便是最好的證明。事實上,谷歌才是在2017年提出Transformer模型、為今天這場游戲制定規(guī)則的先行者。毫不夸張地說,是谷歌掀起的第一波AI浪潮,改變了整個AI行業(yè)的發(fā)展。但現(xiàn)在,它亟需在大模型領(lǐng)域證明自己。
Gemini:谷歌重新證明自己
12月6日,谷歌正式發(fā)布了Gemini大模型。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱,這是谷歌迄今為止功能最強大、最通用的模型,也是谷歌新時代的開始。
Gemini是Google Brain和DeepMind合并組建Google DeepMind之后的首個重要產(chǎn)品。而在Gemini發(fā)布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當中收獲的評價一直不高,相對于業(yè)界領(lǐng)軍的GPT-4差距很大。
目前,谷歌計劃通過谷歌云將Gemini授權(quán)給客戶,供他們在自己的應用程序中使用。據(jù)悉,在Gemini 1.0版本中包含三個不同尺寸,分別是Nano、Pro、Ultra。
· Gemini Nano:有1.8B和3.25B兩個版本,分別針對低內(nèi)存和高內(nèi)存設(shè)備,用于特定任務和移動設(shè)備,支持在本地部署;目標是創(chuàng)建一個盡可能強大的Gemini版本,但同時不會占用手機的存儲空間或使處理器過熱。
· Gemini Pro:是性價比優(yōu)化的版本,具有良好延展性,在推理、多模態(tài)等方面也有較強能力,可以在幾周內(nèi)完成預訓練,在多項測試中僅次于GPT-4V,強于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;從發(fā)布會當天開始,谷歌聊天機器人Bard將使用Pro來實現(xiàn)高級推理、規(guī)劃、理解和其他功能。
· Gemini Ultra:是最大、功能最強大的類別,在對應的TPU基礎(chǔ)設(shè)施中能夠展現(xiàn)出最高效率,在多項測試中Ultra版本性能超過GPT-4V,被定位為GPT-4的競爭對手;谷歌稱目前正在進行信任和安全檢查,以及通過微調(diào)和基于人類反饋的強化學習(RLHF)進一步完善模型,預計明年初,谷歌將推出使用Gemini Ultra的Bard Advanced,會是Bard發(fā)布以來的最大更新。
在性能測試上,Gemini Ultra在32個大語言模型基準測試中的30個中超過了當前最優(yōu)成績,另外在MMLU(大規(guī)模多任務語言理解)中,Gemini Ultra的得分為90%,成為首個超越人類專家的大模型。
MMLU通過結(jié)合數(shù)學、物理、歷史、法律、醫(yī)學和倫理學等57個科目,來測試大模型對世界知識和解決問題的能力。此前,GPT-4在該測試中的成績?yōu)?6.4%,而人類專家的成績?yōu)?9.8%。
從自然圖像、音頻和視頻理解到數(shù)學推理,在被大型語言模型研究和開發(fā)中廣泛使用的32項學術(shù)基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平;圖像理解方面,在新的MMMU(專家AGI的大規(guī)模多學科多模式理解和推理)基準測試中,Gemini Ultra的表現(xiàn)也更優(yōu),其得分率達59.4%,GPT-4V的得分率為56.8%。
在對比Gemini和GPT-4的基準測試中,Gemini最明顯的優(yōu)勢來自于它理解視頻和音頻并與之交互的能力,這很大程度上是設(shè)計使然:多模態(tài)在最開始就是Gemini計劃的一部分。谷歌沒有像OpenAI構(gòu)建DALL·E(文生圖模型)和Whisper(語音識別模型)那樣單獨訓練圖像和語音模型,而是從一開始就建立為一個多感官模型。
最大亮點:原生多模態(tài)模型
目前,創(chuàng)建多模態(tài)模型的標準方法主要是通過分別針對不同模態(tài)訓練單獨的組件,再將這些組件組合起來以模擬多模態(tài)功能的方法構(gòu)建的。但這樣操作的結(jié)果是,這些模型有時在執(zhí)行某些任務(如描述圖像)方面表現(xiàn)良好,但在處理需要更深層次概念理解和復雜推理的任務時,它們的表現(xiàn)往往不盡人意。
而谷歌將Gemini設(shè)計為原生多模態(tài),區(qū)別于其他既有的多模態(tài)模型,它從一開始就針對不同模態(tài)進行了預訓練,再通過使用額外的多模態(tài)數(shù)據(jù)進行微調(diào),進一步提升了模型的有效性。這意味著Gemini一開始就能無縫理解和推理不同類型的信息,包括文本、代碼、音頻、圖像和視頻,遠遠優(yōu)于現(xiàn)有的多模態(tài)模型。
這種原生的多模態(tài)訓練方法使得Gemini在處理多種類型的數(shù)據(jù)和復雜任務時更為高效和精準,從而在多模態(tài)人工智能領(lǐng)域樹立了新的標準。原生多模態(tài)能力意味著模型能夠更自然、高效地處理和融合多種類型的數(shù)據(jù),這在實現(xiàn)更復雜的AI應用方面具有重要意義。
人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官信息。一個具有本地多模態(tài)能力的AI模型在處理信息時也采用了類似的綜合方式,這更接近于人類的理解和認知方式。
想要實現(xiàn)AGI(通用人工智能),就需要AI做到像人類一樣從容地解決不同領(lǐng)域、不同模式的復雜任務,在這個過程中,除了基本的計算、推理等基礎(chǔ)能力,相對應的文字、圖像、視頻等多模態(tài)能力也要跟上。
· AGI-0:基本的人工智能,能夠在特定的領(lǐng)域和任務上表現(xiàn)出智能,如圖像識別、語音識別、自然語言處理等,但不能跨領(lǐng)域和跨模態(tài)地進行學習和推理,也不能與人類和其他AI進行有效和自然的溝通和協(xié)作,也不能感知和表達情感和價值。
· AGI-1:初級的通用人工智能,能夠在多個領(lǐng)域和任務上表現(xiàn)出智能,如問答、摘要、翻譯、對話等,能夠跨領(lǐng)域和跨模態(tài)地進行學習和推理,可以與人類和其他AI進行基本的溝通和協(xié)作,能夠感知和表達簡單的情感和價值。
Gemini的演示視頻,充分展現(xiàn)了它對各個模態(tài)交互的深刻理解,能看、能說、能推理、能夠感知和表達簡單的情感和價值,也讓我們看到了AGI-1的潛在可能性。
經(jīng)過訓練,Gemini可以同時識別和理解文本、圖像、音頻等,因此它能更好地理解微妙的信息,并能回答涉及復雜主題的問題,比如進行數(shù)學和物理等復雜學科的推理。
而在編碼方面,Gemini能夠理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼。兩年前,谷歌曾推出AI代碼生成平臺AlphaCode,現(xiàn)在在Gemini的助力下,該平臺迭代到AlphaCode 2,性能也得到大幅提升,可以解決之前幾乎兩倍數(shù)量的問題。
Gemini的訓練是基于谷歌自己的張量處理單元(TPUs)v4和v5e,比谷歌之前的模型運行速度更快、成本更低。值得關(guān)注的是,隨著Gemini的問世,谷歌還宣布了TPU系統(tǒng)的最強升級Cloud TPU v5p,專為訓練尖端AI模型而設(shè)計;在訓練優(yōu)化方面,Gemini還使用了Jax和Pathways編程模型,為復雜的數(shù)學運算(如在機器學習中常見的運算)提供了優(yōu)化的支持,增加了對模型并行性和數(shù)據(jù)并行性的利用,并對網(wǎng)絡延遲和帶寬進行了優(yōu)化。
通過使用這些工具,Gemini模型的開發(fā)者可以使用單個Python進程來協(xié)調(diào)整個訓練過程,這樣可以簡化開發(fā)和訓練工作流,同時利用Jax和Pathways的高效性能。
GPT-4的“雙子”星?
在過去的一年里,大模型的聊天機器人單月訪問量已經(jīng)增長到超過20億:ChatGPT的月用戶數(shù)從5月開始有所下降,10月出現(xiàn)回升重新達到17億,對比谷歌Bard的用戶數(shù)僅為2.6億;Bard雖然排名第二,但和幾個競品一起歸為“其他”更為合適。
隨著OpenAI推出了ChatGPT,尤其是在必應搜索中整合了GPT技術(shù),并首次在應用程序下載量上超越了谷歌后,人們開始思考谷歌是否在已人工智能領(lǐng)域落后于競爭對手。此次谷歌發(fā)布Gemini早已被寄予了打破ChatGPT統(tǒng)治的厚望,那么Gemini能否代表著谷歌已經(jīng)迎頭趕上了呢?或者說,如今的谷歌能否重新站在人工智能行業(yè)的最高點呢?
通過ChatGPT獲得了大量訓練數(shù)據(jù)反饋,短期內(nèi)OpenAI仍占有先機,但長期來看谷歌也依然有著自己的優(yōu)勢 —— 具備的海量用戶和產(chǎn)品生態(tài)將會成為強大勢能。相比OpenAI,谷歌積累了海量的PC和手機端用戶,擁有海量實時數(shù)據(jù)(而OpenAI的數(shù)據(jù)依賴互聯(lián)網(wǎng),包括谷歌),并通過在用戶手機集成GPT提供如地鐵導航方面而擁有大量用戶信息。
雖然谷歌此次發(fā)布的Gemini雖然在很多性能上超越了GPT-4,但是它與OpenAI仍存在時間差,GPT-4發(fā)布已經(jīng)半年多,新一代模型應該也在開發(fā)過程中。所以對谷歌而言,與GPT-4進行各種基準測試的比較,只是展現(xiàn)其現(xiàn)階段能力的一方面,能否依靠自身積累以及強大的資源,縮短與OpenAI的時間差才是關(guān)鍵。
據(jù)CNBC報道,在Gemini正式發(fā)布前曾多次推遲發(fā)布日期,內(nèi)部對Gemini的提前發(fā)布意見不一,如今因為過大的市場壓力突然決定發(fā)布。未來還需要解決在非英語查詢等任務上的困難,盈利策略也還沒有確定,商業(yè)化路線不清晰。即使Gemini宣傳效果驚人,但作為谷歌在大模型時代構(gòu)建的全新基礎(chǔ)設(shè)施,比起測試數(shù)據(jù),實際應用效果有待驗證:能否滿足日常用戶以及企業(yè)客戶,才是檢驗Gemini能力的真正標準。目前谷歌已經(jīng)開始在搜索中試驗Gemini,它使用戶的搜索生成體驗變得更快(目前只有英語版本,其他語言版本將在未來陸續(xù)推出),延遲減少了40%,同時在質(zhì)量方面也有所提升。
Gemini的發(fā)布無疑是AI界又一個里程碑,這意味著AI大模型浪潮進入到一個全新階段。比起大語言模型,多模態(tài)模型的運作模式,才是人類最自然的和世界交互的方式:用眼睛看到東西,用耳朵聽到聲音,再把這個東西的語義用聲音/文字輸出,再做出決策。
值得注意的是,視頻內(nèi)容已經(jīng)是信息時代的主流,據(jù)思科的年度互聯(lián)網(wǎng)報告顯示,視頻已經(jīng)占據(jù)互聯(lián)網(wǎng)超過80%的流量。Gemini只是掀起了多模態(tài)領(lǐng)域的一角,比起大語言模型,多模態(tài)模型增加了音頻、視頻、圖片這些數(shù)據(jù),而且這些數(shù)據(jù)的訓練還遠未到頭,意味著大模型的天花板上限還很高。如果AI領(lǐng)域的尺度定律(Scaling law)一直奏效,隨著訓練規(guī)模不斷擴大,我們還有許多可以期待的能力涌現(xiàn)。
Gemini的發(fā)布,必然會對其他AI大模型的迭代升級帶來新的催化。對產(chǎn)業(yè)而言,多模態(tài)料將帶動算力需求的提升,同時為后續(xù)GPT-5等模型的發(fā)布將帶來更多催化。除了在一樣閉源路線上的谷歌,還能有誰可以超越OpenAI?走不同開源路線Meta旗下的Llama可能也有機會。
Meta對AI的投資主要集中在三個方面。一是基礎(chǔ)設(shè)施:Meta耗費巨資,在全球范圍內(nèi)建立昂貴的數(shù)據(jù)中心;二是開源大模型Llama 2:作為AI社區(qū)中最強大的開源大模型,Llama 2包括7B、13B、70B三個版本;三是Meta AI:作為一款打通Meta旗下各平臺的AI助手,Meta AI可支持一對一、群聊,上線文生圖功能,甚至可用于AR眼鏡。
7月,Meta發(fā)布Llama 2開源大模型,以“開源”“開放”的名義發(fā)起反擊;12月,Meta又高調(diào)升級Meta AI助手,為Facebook、Instagram等平臺注入AI動力。面對激烈的競爭,Meta寄希望于升級已有平臺,將Meta AI打造成全球應用最廣泛的AI助手。
強大的平臺,一方面為Meta的大模型訓練提供了豐富的語料,另一方面也為Meta AI的普及準備了大量的用戶。除此之外,AI的核心專利方面,Meta可以微軟、谷歌并駕齊驅(qū),廣泛應用的深度學習框架PyTorch便誕生于Meta團隊。
評論