大模型亂斗 GPT-4迎來“雙子”星？

作者：陳玲麗時間：2023-12-14 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

距離ChatGPT發(fā)布，已經(jīng)過去一年零一周。伴隨著ChatGPT的發(fā)布，OpenAI成為了人工智能領(lǐng)域最耀眼的公司，尤其是在大模型領(lǐng)域，它也是其他所有科技公司的追趕目標，當然也包括谷歌。

本文引用地址：http://butianyuan.cn/article/202312/453917.htm

谷歌一直把「AI-first」作為公司戰(zhàn)略，2016年吸引了全球目光的AlphaGo便是最好的證明。事實上，谷歌才是在2017年提出Transformer模型、為今天這場游戲制定規(guī)則的先行者。毫不夸張地說，是谷歌掀起的第一波AI浪潮，改變了整個AI行業(yè)的發(fā)展。但現(xiàn)在，它亟需在大模型領(lǐng)域證明自己。

Gemini：谷歌重新證明自己

12月6日，谷歌正式發(fā)布了Gemini大模型。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱，這是谷歌迄今為止功能最強大、最通用的模型，也是谷歌新時代的開始。

Gemini是Google Brain和DeepMind合并組建Google DeepMind之后的首個重要產(chǎn)品。而在Gemini發(fā)布之前，谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA，在用戶當中收獲的評價一直不高，相對于業(yè)界領(lǐng)軍的GPT-4差距很大。

目前，谷歌計劃通過谷歌云將Gemini授權(quán)給客戶，供他們在自己的應用程序中使用。據(jù)悉，在Gemini 1.0版本中包含三個不同尺寸，分別是Nano、Pro、Ultra。

· Gemini Nano：有1.8B和3.25B兩個版本，分別針對低內(nèi)存和高內(nèi)存設(shè)備，用于特定任務和移動設(shè)備，支持在本地部署；目標是創(chuàng)建一個盡可能強大的Gemini版本，但同時不會占用手機的存儲空間或使處理器過熱。

· Gemini Pro：是性價比優(yōu)化的版本，具有良好延展性，在推理、多模態(tài)等方面也有較強能力，可以在幾周內(nèi)完成預訓練，在多項測試中僅次于GPT-4V，強于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型；從發(fā)布會當天開始，谷歌聊天機器人Bard將使用Pro來實現(xiàn)高級推理、規(guī)劃、理解和其他功能。

· Gemini Ultra：是最大、功能最強大的類別，在對應的TPU基礎(chǔ)設(shè)施中能夠展現(xiàn)出最高效率，在多項測試中Ultra版本性能超過GPT-4V，被定位為GPT-4的競爭對手；谷歌稱目前正在進行信任和安全檢查，以及通過微調(diào)和基于人類反饋的強化學習（RLHF）進一步完善模型，預計明年初，谷歌將推出使用Gemini Ultra的Bard Advanced，會是Bard發(fā)布以來的最大更新。

在性能測試上，Gemini Ultra在32個大語言模型基準測試中的30個中超過了當前最優(yōu)成績，另外在MMLU（大規(guī)模多任務語言理解）中，Gemini Ultra的得分為90%，成為首個超越人類專家的大模型。

MMLU通過結(jié)合數(shù)學、物理、歷史、法律、醫(yī)學和倫理學等57個科目，來測試大模型對世界知識和解決問題的能力。此前，GPT-4在該測試中的成績?yōu)?6.4%，而人類專家的成績?yōu)?9.8%。

從自然圖像、音頻和視頻理解到數(shù)學推理，在被大型語言模型研究和開發(fā)中廣泛使用的32項學術(shù)基準中，Gemini Ultra的性能有30項都超過了目前最先進的水平；圖像理解方面，在新的MMMU（專家AGI的大規(guī)模多學科多模式理解和推理）基準測試中，Gemini Ultra的表現(xiàn)也更優(yōu)，其得分率達59.4%，GPT-4V的得分率為56.8%。

在對比Gemini和GPT-4的基準測試中，Gemini最明顯的優(yōu)勢來自于它理解視頻和音頻并與之交互的能力，這很大程度上是設(shè)計使然：多模態(tài)在最開始就是Gemini計劃的一部分。谷歌沒有像OpenAI構(gòu)建DALL·E（文生圖模型）和Whisper（語音識別模型）那樣單獨訓練圖像和語音模型，而是從一開始就建立為一個多感官模型。

最大亮點：原生多模態(tài)模型

目前，創(chuàng)建多模態(tài)模型的標準方法主要是通過分別針對不同模態(tài)訓練單獨的組件，再將這些組件組合起來以模擬多模態(tài)功能的方法構(gòu)建的。但這樣操作的結(jié)果是，這些模型有時在執(zhí)行某些任務（如描述圖像）方面表現(xiàn)良好，但在處理需要更深層次概念理解和復雜推理的任務時，它們的表現(xiàn)往往不盡人意。

而谷歌將Gemini設(shè)計為原生多模態(tài)，區(qū)別于其他既有的多模態(tài)模型，它從一開始就針對不同模態(tài)進行了預訓練，再通過使用額外的多模態(tài)數(shù)據(jù)進行微調(diào)，進一步提升了模型的有效性。這意味著Gemini一開始就能無縫理解和推理不同類型的信息，包括文本、代碼、音頻、圖像和視頻，遠遠優(yōu)于現(xiàn)有的多模態(tài)模型。

這種原生的多模態(tài)訓練方法使得Gemini在處理多種類型的數(shù)據(jù)和復雜任務時更為高效和精準，從而在多模態(tài)人工智能領(lǐng)域樹立了新的標準。原生多模態(tài)能力意味著模型能夠更自然、高效地處理和融合多種類型的數(shù)據(jù)，這在實現(xiàn)更復雜的AI應用方面具有重要意義。

人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官信息。一個具有本地多模態(tài)能力的AI模型在處理信息時也采用了類似的綜合方式，這更接近于人類的理解和認知方式。

想要實現(xiàn)AGI（通用人工智能），就需要AI做到像人類一樣從容地解決不同領(lǐng)域、不同模式的復雜任務，在這個過程中，除了基本的計算、推理等基礎(chǔ)能力，相對應的文字、圖像、視頻等多模態(tài)能力也要跟上。
· AGI-0：基本的人工智能，能夠在特定的領(lǐng)域和任務上表現(xiàn)出智能，如圖像識別、語音識別、自然語言處理等，但不能跨領(lǐng)域和跨模態(tài)地進行學習和推理，也不能與人類和其他AI進行有效和自然的溝通和協(xié)作，也不能感知和表達情感和價值。
· AGI-1：初級的通用人工智能，能夠在多個領(lǐng)域和任務上表現(xiàn)出智能，如問答、摘要、翻譯、對話等，能夠跨領(lǐng)域和跨模態(tài)地進行學習和推理，可以與人類和其他AI進行基本的溝通和協(xié)作，能夠感知和表達簡單的情感和價值。
Gemini的演示視頻，充分展現(xiàn)了它對各個模態(tài)交互的深刻理解，能看、能說、能推理、能夠感知和表達簡單的情感和價值，也讓我們看到了AGI-1的潛在可能性。

經(jīng)過訓練，Gemini可以同時識別和理解文本、圖像、音頻等，因此它能更好地理解微妙的信息，并能回答涉及復雜主題的問題，比如進行數(shù)學和物理等復雜學科的推理。

而在編碼方面，Gemini能夠理解、解釋和生成世界上最流行的編程語言（如Python、Java、C++和Go）的高質(zhì)量代碼。兩年前，谷歌曾推出AI代碼生成平臺AlphaCode，現(xiàn)在在Gemini的助力下，該平臺迭代到AlphaCode 2，性能也得到大幅提升，可以解決之前幾乎兩倍數(shù)量的問題。

Gemini的訓練是基于谷歌自己的張量處理單元（TPUs）v4和v5e，比谷歌之前的模型運行速度更快、成本更低。值得關(guān)注的是，隨著Gemini的問世，谷歌還宣布了TPU系統(tǒng)的最強升級Cloud TPU v5p，專為訓練尖端AI模型而設(shè)計；在訓練優(yōu)化方面，Gemini還使用了Jax和Pathways編程模型，為復雜的數(shù)學運算（如在機器學習中常見的運算）提供了優(yōu)化的支持，增加了對模型并行性和數(shù)據(jù)并行性的利用，并對網(wǎng)絡延遲和帶寬進行了優(yōu)化。

通過使用這些工具，Gemini模型的開發(fā)者可以使用單個Python進程來協(xié)調(diào)整個訓練過程，這樣可以簡化開發(fā)和訓練工作流，同時利用Jax和Pathways的高效性能。

GPT-4的“雙子”星？

在過去的一年里，大模型的聊天機器人單月訪問量已經(jīng)增長到超過20億：ChatGPT的月用戶數(shù)從5月開始有所下降，10月出現(xiàn)回升重新達到17億，對比谷歌Bard的用戶數(shù)僅為2.6億；Bard雖然排名第二，但和幾個競品一起歸為“其他”更為合適。

隨著OpenAI推出了ChatGPT，尤其是在必應搜索中整合了GPT技術(shù)，并首次在應用程序下載量上超越了谷歌后，人們開始思考谷歌是否在已人工智能領(lǐng)域落后于競爭對手。此次谷歌發(fā)布Gemini早已被寄予了打破ChatGPT統(tǒng)治的厚望，那么Gemini能否代表著谷歌已經(jīng)迎頭趕上了呢？或者說，如今的谷歌能否重新站在人工智能行業(yè)的最高點呢？

通過ChatGPT獲得了大量訓練數(shù)據(jù)反饋，短期內(nèi)OpenAI仍占有先機，但長期來看谷歌也依然有著自己的優(yōu)勢 —— 具備的海量用戶和產(chǎn)品生態(tài)將會成為強大勢能。相比OpenAI，谷歌積累了海量的PC和手機端用戶，擁有海量實時數(shù)據(jù)（而OpenAI的數(shù)據(jù)依賴互聯(lián)網(wǎng)，包括谷歌），并通過在用戶手機集成GPT提供如地鐵導航方面而擁有大量用戶信息。

雖然谷歌此次發(fā)布的Gemini雖然在很多性能上超越了GPT-4，但是它與OpenAI仍存在時間差，GPT-4發(fā)布已經(jīng)半年多，新一代模型應該也在開發(fā)過程中。所以對谷歌而言，與GPT-4進行各種基準測試的比較，只是展現(xiàn)其現(xiàn)階段能力的一方面，能否依靠自身積累以及強大的資源，縮短與OpenAI的時間差才是關(guān)鍵。

據(jù)CNBC報道，在Gemini正式發(fā)布前曾多次推遲發(fā)布日期，內(nèi)部對Gemini的提前發(fā)布意見不一，如今因為過大的市場壓力突然決定發(fā)布。未來還需要解決在非英語查詢等任務上的困難，盈利策略也還沒有確定，商業(yè)化路線不清晰。即使Gemini宣傳效果驚人，但作為谷歌在大模型時代構(gòu)建的全新基礎(chǔ)設(shè)施，比起測試數(shù)據(jù)，實際應用效果有待驗證：能否滿足日常用戶以及企業(yè)客戶，才是檢驗Gemini能力的真正標準。目前谷歌已經(jīng)開始在搜索中試驗Gemini，它使用戶的搜索生成體驗變得更快（目前只有英語版本，其他語言版本將在未來陸續(xù)推出），延遲減少了40％，同時在質(zhì)量方面也有所提升。

Gemini的發(fā)布無疑是AI界又一個里程碑，這意味著AI大模型浪潮進入到一個全新階段。比起大語言模型，多模態(tài)模型的運作模式，才是人類最自然的和世界交互的方式：用眼睛看到東西，用耳朵聽到聲音，再把這個東西的語義用聲音/文字輸出，再做出決策。

值得注意的是，視頻內(nèi)容已經(jīng)是信息時代的主流，據(jù)思科的年度互聯(lián)網(wǎng)報告顯示，視頻已經(jīng)占據(jù)互聯(lián)網(wǎng)超過80%的流量。Gemini只是掀起了多模態(tài)領(lǐng)域的一角，比起大語言模型，多模態(tài)模型增加了音頻、視頻、圖片這些數(shù)據(jù)，而且這些數(shù)據(jù)的訓練還遠未到頭，意味著大模型的天花板上限還很高。如果AI領(lǐng)域的尺度定律（Scaling law）一直奏效，隨著訓練規(guī)模不斷擴大，我們還有許多可以期待的能力涌現(xiàn)。

Gemini的發(fā)布，必然會對其他AI大模型的迭代升級帶來新的催化。對產(chǎn)業(yè)而言，多模態(tài)料將帶動算力需求的提升，同時為后續(xù)GPT-5等模型的發(fā)布將帶來更多催化。除了在一樣閉源路線上的谷歌，還能有誰可以超越OpenAI？走不同開源路線Meta旗下的Llama可能也有機會。

Meta對AI的投資主要集中在三個方面。一是基礎(chǔ)設(shè)施：Meta耗費巨資，在全球范圍內(nèi)建立昂貴的數(shù)據(jù)中心；二是開源大模型Llama 2：作為AI社區(qū)中最強大的開源大模型，Llama 2包括7B、13B、70B三個版本；三是Meta AI：作為一款打通Meta旗下各平臺的AI助手，Meta AI可支持一對一、群聊，上線文生圖功能，甚至可用于AR眼鏡。

7月，Meta發(fā)布Llama 2開源大模型，以“開源”“開放”的名義發(fā)起反擊；12月，Meta又高調(diào)升級Meta AI助手，為Facebook、Instagram等平臺注入AI動力。面對激烈的競爭，Meta寄希望于升級已有平臺，將Meta AI打造成全球應用最廣泛的AI助手。

強大的平臺，一方面為Meta的大模型訓練提供了豐富的語料，另一方面也為Meta AI的普及準備了大量的用戶。除此之外，AI的核心專利方面，Meta可以微軟、谷歌并駕齊驅(qū)，廣泛應用的深度學習框架PyTorch便誕生于Meta團隊。