新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 從基礎(chǔ)能力到應(yīng)用,大模型實測結(jié)果揭曉

從基礎(chǔ)能力到應(yīng)用,大模型實測結(jié)果揭曉

作者: 時間:2024-06-11 來源:IDC 收藏

OpenAI 于 2023 年 3 月 14 日發(fā)布最新版本多模態(tài) GPT-4 及其 API;在中國市場,模型的通用性和泛化能力吸引了各大廠商布局,市場上的/生成式AI產(chǎn)品紛至沓來。2024年5月,全球代表性AI技術(shù)供應(yīng)商如OpenAI發(fā)布了更新的GPT-4o,在文本、圖像、音頻和視頻等多模態(tài)融合嘗試方面展現(xiàn)出強大的能力,能夠以這三者的任意組合進行輸入和輸出,Google也發(fā)布了大模型Gemini的最新功能、文生圖模型Imagen3、對標Sora的文生視頻模型Veo等。IDC觀察到,在中國市場,從2024年第二季度開始,越來越多的AI技術(shù)供應(yīng)商開始更新升級基礎(chǔ)大模型及相關(guān)產(chǎn)品,新一輪的“百模大戰(zhàn)”一觸即發(fā)。

本文引用地址:http://butianyuan.cn/article/202406/459752.htm

實測方法

本次實測面向市場上主流的大模型技術(shù)供應(yīng)商,產(chǎn)品必須是已經(jīng)開放使用,并按照國家互聯(lián)網(wǎng)信息辦公室要求已經(jīng)完成備案。測試的媒介主要是基于基礎(chǔ)大模型的網(wǎng)頁版的產(chǎn)品,IDC對參與廠商的產(chǎn)品表現(xiàn)分別進行測評。基礎(chǔ)能力問題涉及問答理解類、推理類、創(chuàng)作表達類、數(shù)學類、代碼類等;應(yīng)用問題主要包含toC通用場景類和toB特定行業(yè)類,每一類單獨計分。

image.png

基礎(chǔ)大模型產(chǎn)品實測結(jié)果評述

為對比國內(nèi)外大模型的產(chǎn)品差異以及推動大模型/生成式AI相關(guān)產(chǎn)品的發(fā)展和應(yīng)用,IDC成立產(chǎn)品測試團隊,通過多個維度(如生成質(zhì)量、使用與性能、安全與合規(guī)等)對基礎(chǔ)大模型及相關(guān)產(chǎn)品進行評測,并邀請外部專家團隊深入分析各個產(chǎn)品答案準確性、合理性等,并在審核委員會的監(jiān)督下,最終得出各廠商的評估結(jié)果,供用戶選型參考。

綜合最終的得分情況,基礎(chǔ)大模型產(chǎn)品能力處于第一梯隊的有(梯隊產(chǎn)品表現(xiàn)在同一均線,以下按照技術(shù)供應(yīng)商首字母順序排列):阿里通義千問/通義萬相等通義系列生成式AI產(chǎn)品、百度文心一言/文心一格、科大訊飛訊飛星火 3.5 Max、OpenAI GPT4、商湯日日新SenseNova 5.0。

在所有的題目類型中,目前如問答理解、toC通用場景類得分率較高,數(shù)學類、推理類、代碼類問題、行業(yè)應(yīng)用類的準確率較低,需進一步優(yōu)化。詳細的測評結(jié)果展示如下:

image.png

image.png

IDC中國大模型產(chǎn)品測試團隊表示,2024年產(chǎn)業(yè)界更加關(guān)注大模型和生成式AI的落地,生成式AI的進一步發(fā)展需要多種模態(tài)的大模型作為引擎。更為接近人類的思維方式,是未來大語言模型競爭的關(guān)鍵,技術(shù)供應(yīng)商還需持續(xù)優(yōu)化大模型在數(shù)學、推理、代碼等問題以及在行業(yè)應(yīng)用中的生成質(zhì)量,提高生成的速度并降低大模型使用的成本,加快大模型技術(shù)的應(yīng)用與普及。

image.png

免責聲明

本文中的內(nèi)容和數(shù)據(jù)均來源于IDC所發(fā)布的報告,所有內(nèi)容及數(shù)據(jù)均為我公司所有。未經(jīng)IDC書面許可,任何機構(gòu)和個人不得以任何形式翻版、復(fù)制、刊登、發(fā)表或引用。



關(guān)鍵詞: 大模型實測 大模型

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉