誰拖了中國ChatGPT的后腿？

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2023-02-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

大數(shù)據(jù)文摘轉(zhuǎn)載自品玩作者｜駱軼航
郵箱｜tluo@pingwest.com

ChatGPT已經(jīng)成了全球信息技術(shù)產(chǎn)業(yè)界毋庸置疑的現(xiàn)象級(jí)產(chǎn)品。
它以“通用人工智能”的名義，跟人類嘮家常，幫人們起草郵件和律師信，回答一些玄奧的終極哲學(xué)問題，寫一段可用的Python代碼，回答一些看似需要復(fù)雜和遞進(jìn)邏輯的問題，根據(jù)一些人物設(shè)定撰寫一段電影劇本，書寫一首優(yōu)美的情詩，捉刀大學(xué)生的論文作業(yè)……似乎人類歷史上還沒有這么一個(gè)全能的AI物種。比爾蓋茨說ChatGPT出現(xiàn)的意義“不亞于互聯(lián)網(wǎng)的誕生”，微軟CEO納德拉（Satya Nadella）說它堪比工業(yè)革命，人工智能口頭愛好者們又一次驚呼“奇點(diǎn)”來臨，普通人再度擔(dān)心自己的工作被ChatGPT這樣的全能型AI助手取代……從IBM的“深藍(lán)”，到Google的AlphaGo，再到OpenAI的ChatGPT，25年過去了，AI在不斷進(jìn)化，人類對(duì)AI的日常反應(yīng)卻看不出什么心智上的成熟，這真的是一件令A(yù)I開心的事。
我已經(jīng)用ChatGPT干過諸多不可描述之事，發(fā)現(xiàn)它并不能每每得心應(yīng)手，卻能在一些看似更艱深的問題上給出更出色的答案和解決方案。比如你問它比亞迪能不能打敗特斯拉，它可能會(huì)給出一些結(jié)構(gòu)清晰而無奇、事實(shí)謬誤頗多同時(shí)又毫無個(gè)性的論述；但如果你問它自動(dòng)駕駛將如何改變一輛汽車的工業(yè)設(shè)計(jì)，它倒是能夠從底盤革新、內(nèi)飾變化、數(shù)字娛樂和外型突破等方面給出充滿由內(nèi)至外想象的論述。從整體而言，ChatGPT相當(dāng)?shù)牟煌昝?，尤其是在提供令人信服的?zhǔn)確性方面，但它在提供結(jié)構(gòu)化的信息論述、打開想象力和解放創(chuàng)造力等領(lǐng)域經(jīng)常令人類覺得驚艷。你說不上來它對(duì)你有什么無懈可擊的具體用處，但它又能幫你實(shí)現(xiàn)和完成一些瑣碎的、冗余的甚至有創(chuàng)造力的事。
正是這么一個(gè)看似無用卻有用、看似有用卻無用的ChatGPT，推動(dòng)它的母公司OpenAI被微軟追加累計(jì)的超過100億美元的投資，它用兩天時(shí)間突破100萬用戶，F(xiàn)acebook曾經(jīng)花了305天；它突破1億用戶花了兩個(gè)月，就連TikTok也需要9個(gè)月——請(qǐng)記住，與Facebook和TikTok不同，ChatGPT還不是一個(gè)獨(dú)立的消費(fèi)級(jí)互聯(lián)網(wǎng)產(chǎn)品，它仍然僅是一個(gè)采用了GPT-3自然語言模型的包含1750億參數(shù)的大型神經(jīng)網(wǎng)絡(luò)——當(dāng)它被優(yōu)先授權(quán)給微軟集成在Office和Bing等辦公軟件和搜索引擎服務(wù)的時(shí)候，才真正地變成一個(gè)“可用”的產(chǎn)品。
但這已經(jīng)讓中國的人工智能獨(dú)角獸們夠嫉妒的了。
500名員工，公司整體估值接近300億美元，這是OpenAI；動(dòng)輒幾千人，公司估值/市值充其量10-20億美元，這是中國的多家AI“小巨頭”。
因?yàn)槿诵Ш蛢r(jià)值的巨大差距，更因?yàn)镃hatGPT對(duì)全人類現(xiàn)實(shí)社會(huì)驟然釋放的影響力，ChatGPT的誕生給中國人工智能領(lǐng)域的刺激是不小的。很多人又跳出來了，感慨中美人工智能差距進(jìn)一步拉大，中國想趕上這波浪潮“任重道遠(yuǎn)”。還有一些人，又開始熱衷探討為什么中國沒有自己的ChatGPT，結(jié)論仍然是“中國缺乏創(chuàng)新土壤”和“中國互聯(lián)網(wǎng)公司都在搞直播和買菜”這樣，既不負(fù)責(zé)又罔顧事實(shí)的蠢話。
中國互聯(lián)網(wǎng)公司并沒有都在搞直播和買菜，他們?cè)趶氖掳雽?dǎo)體開發(fā)、AI模型研究和自動(dòng)駕駛；美國的互聯(lián)網(wǎng)公司搞直播、買菜尤其是互聯(lián)網(wǎng)金融的時(shí)候也很風(fēng)生水起，那些拿著手電筒和放大鏡拼命找自己?jiǎn)栴}，極力美化對(duì)手，用遮瑕霜不遺余力涂抹對(duì)手的問題，把原因歸咎于簡(jiǎn)單粗暴的理由的人，可以閉上你們的嘴，這不是反思中國為什么不能率先誕生自己的生成式人工智能模型的正確姿勢(shì)。
作為在人工智能和自然語義處理領(lǐng)域積累最多的中國互聯(lián)網(wǎng)公司，百度過去五年一直在搞自己的深度學(xué)習(xí)大模型“飛槳“（Paddle Paddle），甚至用自己的通用AI芯片“昆侖芯”訓(xùn)練自己的模型——它們是百度訓(xùn)練自己的“ChatGPT”的基本環(huán)境和前提。阿里巴巴、字節(jié)跳動(dòng)和滴滴也都有基于自身需求的自然語義訓(xùn)練模型?？梢哉f，在訓(xùn)練復(fù)雜的上百億參數(shù)的自然語義模型方面，中國的公司和研究機(jī)構(gòu)的“家底”并不薄弱，起點(diǎn)也并不比美國同行低——至少在2016年前后的時(shí)候是如此。這幾年中美人工智能界在大模型領(lǐng)域產(chǎn)生的差距，不是意識(shí)、起點(diǎn)和能力的問題，而是道路和方法的問題。
中國與美國在類ChatGPT的人機(jī)對(duì)話模型領(lǐng)域的差距，也不是所謂的監(jiān)管導(dǎo)致的。如果你與ChatGPT就一些更豐富的宗教、文化、民族和地緣政治等議題展開過坦率的交流的話，你會(huì)意識(shí)到它在看似拒絕和審慎討論這些議題的背后隱藏著某些特定的立場(chǎng)傾向，是與美國社會(huì)普遍公認(rèn)的主流價(jià)值觀微妙重合的?？梢哉f，任何一個(gè)，而不是某一個(gè)自然語義的復(fù)雜模型，其模型建構(gòu)、語料采集、訓(xùn)練和參數(shù)調(diào)整的過程，都是基于特定價(jià)值體系的“內(nèi)容審查”的過程，都有著維系其價(jià)值體系的自覺。我們不是應(yīng)該不應(yīng)該在自然語義模型里“生成”中國的價(jià)值立場(chǎng)的問題，而是它該如何生成，才能真正地制衡英語主導(dǎo)全球互聯(lián)網(wǎng)語料庫必然導(dǎo)致的世界觀與文化霸權(quán)，加強(qiáng)中文語言理解基準(zhǔn)在全球自然語義處理體系的權(quán)重，進(jìn)而為世界人工智能和人機(jī)對(duì)話的發(fā)展提供文化上的多樣性。
我也嚴(yán)重不同意中文互聯(lián)網(wǎng)信息內(nèi)容質(zhì)量太糟糕導(dǎo)致中國類ChatGPT模型語料源頭被“污染”的說法，這同樣是既偷懶又顯得大聰明的判斷。因?yàn)榛ヂ?lián)網(wǎng)上的信息總量原因，英語內(nèi)容無疑是世界上最多的，質(zhì)量堪憂的極端化內(nèi)容也是最多的，它們都會(huì)影響自然語義模型訓(xùn)練的過程和結(jié)果。ChatGPT在早期的訓(xùn)練中優(yōu)先使用內(nèi)容質(zhì)量較高的社交論壇Reddit上的高贊內(nèi)容，是有特定的語料選擇傾向的。如果中國優(yōu)先選擇知乎和得到等知識(shí)類社區(qū)，以及主流媒體優(yōu)先作為語義模型的語料庫的話，就不存在語料被污染的問題。更遑論以大部分持“中文內(nèi)容質(zhì)量低”的人們的外語水平和閱讀廣度，根本不足以支撐他們的論斷。
但是無論如何，ChatGPT的橫空出世，對(duì)我這么一個(gè)多年來一直呼吁“告別硅谷崇拜”的人來說，的確是一個(gè)不大不小的刺激，也是一個(gè)觀念的挑戰(zhàn)。
這不是因?yàn)槲矣X得中國和美國在人工智能領(lǐng)域競(jìng)爭(zhēng)的差距就此拉大了，而是因?yàn)镃hatGPT這樣的通用人工智能人機(jī)對(duì)話模型，是一個(gè)真正可能從全人類——而不是某一個(gè)特定領(lǐng)域和行業(yè)的角度，推動(dòng)社會(huì)生產(chǎn)協(xié)作與文明進(jìn)程的工具。其意義大于移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)，堪比電子郵件和搜索引擎的誕生。作為一個(gè)人工智能大國，中國早就不是電子郵件和搜索引擎誕生時(shí)期的信息技術(shù)產(chǎn)業(yè)一窮二白的國家了，但是，我們卻沒有讓這類能影響人類文明進(jìn)程的通用人工智能的創(chuàng)新首先發(fā)生在中國，訓(xùn)練一個(gè)基礎(chǔ)語料由中國文化與價(jià)值體系為建構(gòu)的模型。
更何況，ChatGPT的模型訓(xùn)練方式，很大程度上依靠的是“大力出奇跡”的參數(shù)升級(jí)、反復(fù)訓(xùn)練和模型依據(jù)生成內(nèi)容反饋持續(xù)迭代優(yōu)化——這原本是中國團(tuán)隊(duì)最擅長(zhǎng)的工作方法。當(dāng)一家美國的創(chuàng)業(yè)公司用從微軟融來的錢不惜代價(jià)投入巨額算力成本，大量雇傭非洲和中東的數(shù)據(jù)工人進(jìn)行信息標(biāo)注、用最高效率的迭代與Google這樣的巨頭進(jìn)行自研語義處理大模型的“軍備競(jìng)賽”時(shí)，你還是有一種很不真實(shí)的感覺——這究竟是一家舊金山公司還是一家深圳公司。
像ChatGPT這樣的自然語義處理模型應(yīng)該可以誕生在中國但卻沒有誕生在中國，其原因還得從中國從事人工智能的科技公司——無論巨頭還是創(chuàng)業(yè)公司這些年在干什么開始說。
很多人可能從來沒意識(shí)到的一個(gè)問題是：像ChatGPT這樣的超大規(guī)模通用自然語義處理模型，由一家AI創(chuàng)業(yè)公司建構(gòu)最可能產(chǎn)生奇跡，而在一家科技巨頭內(nèi)部通常不會(huì)實(shí)現(xiàn)更好的結(jié)果。這就是為什么Google的LaMDA對(duì)話應(yīng)用模型和近期倉促上陣的Bard都沒有大放異彩的原因，也是百度接下來勢(shì)必面臨的挑戰(zhàn)。
為什么？首先是因?yàn)橥ㄓ米匀徽Z義處理建模太燒錢了。其實(shí)，燒錢通常并不是大公司的本事，反倒是創(chuàng)業(yè)公司的特權(quán)?？萍季揞^幾乎都是上市公司，百億美元級(jí)別的投資砸在一項(xiàng)相當(dāng)長(zhǎng)時(shí)期看不到回報(bào)的事上，首席財(cái)務(wù)官在面對(duì)董事會(huì)和股東大會(huì)時(shí)的壓力是很大的，也經(jīng)常是被股價(jià)懲罰的，這導(dǎo)致大公司不敢做大冒險(xiǎn)，不大冒險(xiǎn)就不會(huì)有大迭代。什么叫“大力出奇跡”？就是先花大錢出大力，然后再祈禱奇跡的發(fā)生，而不是默認(rèn)一定得出現(xiàn)奇跡，然后再?zèng)Q定花錢出力。

可惜，大公司只能是后者。這也是為什么即便從ChatGPT受益頗豐的微軟，也只敢從一開始的10億美元，歷時(shí)四年，直到今年的百億美元，一筆一筆，持續(xù)地追加投資，以支持OpenAI在微軟的“體外”，多年如一日地訓(xùn)練GPT模型。微軟通過投資OpenAI獲得的股權(quán)享有整合ChatGPT模型能力進(jìn)入其Office和搜索引擎的優(yōu)先權(quán)，它未來會(huì)不會(huì)吃掉OpenAI可能是一件不太好說的事，但至少市值近萬億美元，一年收入幾百億美元的微軟，是絕對(duì)不敢一開始就“大力出奇跡”，兀自憑一己之力訓(xùn)練這個(gè)模型的。
其次，因?yàn)槿藗儗?duì)科技巨頭從事創(chuàng)新事業(yè)的容錯(cuò)度很低，而對(duì)創(chuàng)業(yè)公司的錯(cuò)誤和偏差較為優(yōu)容。Google為了應(yīng)對(duì)以ChatGPT的壓力，倉促推出了人機(jī)對(duì)話測(cè)試版Bard，被發(fā)現(xiàn)一些對(duì)話出現(xiàn)了基本的事實(shí)錯(cuò)誤，于是被無限放大，市值一夜蒸發(fā)千億美元。事實(shí)上Google不是不清楚這一點(diǎn)，要不是被逼急了，它也不會(huì)這么冒失。Google在2021年公布的LaMDA模型，參數(shù)級(jí)別和信息搜索能力都明顯高于當(dāng)時(shí)OpenAI訓(xùn)練的GPT-3，但Google遲遲不敢公測(cè)其效果，就是因?yàn)楹ε滤霈F(xiàn)失誤，引發(fā)公眾的不信任和股價(jià)的下滑。
Google在乎的，OpenAI都不在乎。從ChatGPT發(fā)布的第一天起，它就公開地說自己沒有信息檢索能力，語料庫也只到2021年12月，更回答不了很多關(guān)于價(jià)值和道德判斷的問題，還經(jīng)常犯事實(shí)錯(cuò)誤。對(duì)ChatGPT的自我“擺爛”，測(cè)試者很寬容地接受了，對(duì)它在編程、文學(xué)創(chuàng)作、格式化寫作、尋醫(yī)問診等領(lǐng)域展現(xiàn)的信息關(guān)聯(lián)、情感表達(dá)、邏輯結(jié)構(gòu)、思維連貫性一系列能力驚嘆不已，對(duì)它犯的錯(cuò)誤輕輕帶過。
2019年3月，在GPT-2模型取得前所未有的成功后，成立了4年的OpenAI決定由一家非盈利的基金會(huì)轉(zhuǎn)變成為一家商業(yè)公司。畢竟沒有任何一家基金會(huì)能受得了它的首席科學(xué)家年薪150萬美元，2019年5月，山姆·奧特曼（Sam Altman）出任OpenAI的CEO。接著，OpenAI獲得了微軟的10億美元投資。2020年5月，OpenAI推出的GPT-3模型，參數(shù)從GPT-2的15億陡升至1750億，形成了一個(gè)前所未有強(qiáng)大的自動(dòng)學(xué)習(xí)系統(tǒng)。
可見，一家含著金湯匙出生、融得到巨資、有巨頭業(yè)務(wù)捆綁加持的人工智能初創(chuàng)公司，從事通用的人工智能自然語義模型建構(gòu)與開發(fā)，不計(jì)成本投入模型訓(xùn)練，是最理想的狀態(tài)。最強(qiáng)大的模型帶來的想象力和商業(yè)回報(bào)足以刺激微軟和其它的投資者。
那么，怎么這個(gè)邏輯在中國就跑不通了？中國曾經(jīng)有沒有一個(gè)強(qiáng)大的通用自然語義人工智能模型，哪怕就是一個(gè)雛形？
要回答這個(gè)問題，不妨看看微軟首次投資OpenAI的時(shí)間：2019年7月。在微軟押注OpenAI的GPT模型之后4個(gè)月，也就是2019年11月，微軟負(fù)責(zé)必應(yīng)搜索業(yè)務(wù)、同時(shí)也是微軟人工智能最高負(fù)責(zé)人的全球資深副總裁、中國香港籍計(jì)算機(jī)科學(xué)家沈向洋宣布離開工作了20余年的微軟。而沈向洋對(duì)微軟通用人工智能模型的最后一個(gè)貢獻(xiàn)，就是由微軟亞洲互聯(lián)網(wǎng)工程院在2014年主導(dǎo)研發(fā)的聊天機(jī)器人——小冰。
2020年7月，小冰從微軟獨(dú)立出來，成為一家中國的人工智能創(chuàng)業(yè)公司，沈向洋出任董事長(zhǎng)，原微軟亞洲互聯(lián)網(wǎng)工程院常務(wù)副院長(zhǎng)李笛出任CEO。小冰獨(dú)立之際已發(fā)展至第六代以上，產(chǎn)品形態(tài)涉及對(duì)話式人工智能機(jī)器人、智能語音助手、人工智能創(chuàng)造內(nèi)容提供者和一系列垂直領(lǐng)域解決方案。小冰曾經(jīng)引發(fā)公眾討論的，除了充滿情感和女性性征的聊天機(jī)器人之外，還有它在漢語詩歌創(chuàng)作領(lǐng)域的驚艷表現(xiàn)——她出過一本詩集《陽光失了玻璃窗》，收獲了不少好評(píng)，以及更多的爭(zhēng)議。
毫無疑問，一個(gè)能寫詩，進(jìn)行簡(jiǎn)單情感和基于常識(shí)的對(duì)話的小冰機(jī)器人，是幾年前全世界范圍表現(xiàn)上乘的對(duì)話式通用人工智能模型。
沈向洋主導(dǎo)的團(tuán)隊(duì)不可能不懂搜索，更不可能不懂人工智能。而沈向洋從微軟出走和小冰的“獨(dú)立”，加之微軟CEO納德拉主導(dǎo)的對(duì)OpenAI的投資和合作綁定，其實(shí)是中美最頂級(jí)的人工智能操盤手，在通用人工智能模型領(lǐng)域的一次正式的分道揚(yáng)鑣。
那么，今天的小冰，還寫詩么？它在做什么？
這兩年，小冰早就不寫詩了。它在忙著商業(yè)化。它成立了游戲工作室，為游戲提供NPC腳本對(duì)話內(nèi)容；它與冬奧會(huì)合作，提供自由式滑雪空中技巧視覺評(píng)分系統(tǒng)；它為萬得資訊提供人工智能生成的上市公司公告文本摘要；它給萬科等企業(yè)定制了客服專用的虛擬數(shù)字人……它在努力地成為一家“賦能”各行各業(yè)，同時(shí)讓自己能造血賺錢的人工智能解決方案公司。
一句話，昔日代表了通用自然語義人工智能模型較高水準(zhǔn)、中國人撐起全部格局的人工智能團(tuán)隊(duì)，現(xiàn)在成了一個(gè)生成式人工智能與決策型人工智能混合的、為具體的場(chǎng)景提供具體解決方案的人工智能供應(yīng)商。
你不能說這是小冰的“墮落”，畢竟它只從資本市場(chǎng)融資了數(shù)億元人民幣。按照ChatGPT的模型訓(xùn)練方法，這些錢一天就花完了。沒了微軟的護(hù)身庇佑，小冰得自己顧自己的命?？墒?，我也從來沒聽說過百度、騰訊或者字節(jié)跳動(dòng)，想過要投資小冰，支持它繼續(xù)搞通用自然語義人工智能的大模型。
不僅僅是小冰。過去幾年中國也有其它從事通用人工智能自動(dòng)建模和異構(gòu)計(jì)算，讓國內(nèi)外7-8種芯片通過該模型接入軟件的創(chuàng)業(yè)團(tuán)隊(duì)，但只要是拿這個(gè)模型出來融資，就搞不定任何的一個(gè)投資人。中國的投資機(jī)構(gòu)從未表現(xiàn)過對(duì)通用人工智能模型的興趣，和哪怕一點(diǎn)點(diǎn)的想象力。
“超過85%的投資人一上來就要求我們介紹產(chǎn)品的場(chǎng)景，我們說我們幫GPU對(duì)接軟件生態(tài)，連英偉達(dá)都用我們的模型，投資人說這個(gè)不算場(chǎng)景。我們說我們也有客戶，衛(wèi)星、碼頭、智慧城市和智慧工業(yè)的研究，他們說你干得太散了，我們不投”。這是我自己聽到過的做通用人工智能模型的創(chuàng)業(yè)者對(duì)我的吐槽。
眾所周知，中國的VC是最喜歡“教育”創(chuàng)業(yè)者的，當(dāng)然也少不了教育從事人工智能創(chuàng)業(yè)的科學(xué)家。“你得在這個(gè)行業(yè)有點(diǎn)數(shù)據(jù)”，這是他們最愛教育AI創(chuàng)業(yè)者的一句話。
在某一個(gè)行業(yè)有數(shù)據(jù)，而且要專注在某一個(gè)細(xì)分領(lǐng)域提供解決方案，這是中國大多數(shù)號(hào)稱投資人工智能的VC和PE們的思維定式。然后看的就是“場(chǎng)景有多大”，安防攝像頭的場(chǎng)景足夠大，于是估值模型就變成了中國這么大，能安多少個(gè)攝像頭？每個(gè)攝像頭多少錢？總的攝像頭盤子有多大？好，盤子足夠大，攝像頭這個(gè)細(xì)分領(lǐng)域我們投了。再看看港口智慧物流，中國有多少個(gè)港口？有多少個(gè)是深水港口？每個(gè)港口碼頭能為AI解決方案付多少錢？原來就付這么點(diǎn)兒錢啊，看來“港口”這個(gè)場(chǎng)景不夠大，那我們不投。AI虛擬數(shù)字人做客服？能跟元宇宙掛上啊，那有故事有想象力，好，我們可以投投試試。
所以，你看到的情況就是，中國的人工智能“四小龍”基本都在做攝像頭和人臉識(shí)別的生意，都變成了AI的項(xiàng)目實(shí)施和集成商，商業(yè)模式一如30年前的東軟和軟通動(dòng)力，自己活得舉步維艱，巨額虧損，還得撐著中國人工智能產(chǎn)業(yè)的排面，撐著人工智能這一領(lǐng)域的估值和想象力。
在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)，幾乎沒有哪個(gè)人工智能領(lǐng)域的投資人發(fā)自內(nèi)心地相信一個(gè)通用的模型能在各個(gè)行業(yè)復(fù)用。其中偶爾有幾個(gè)對(duì)通用模型有點(diǎn)耐心和興趣的，基本都是人民幣基金，美元基金對(duì)中國團(tuán)隊(duì)搞通用模型的嘗試真的是興趣闕如。你以為是他們通過對(duì)比OpenAI和Google這樣的公司的模型訓(xùn)練難度和水平，從而覺得中國團(tuán)隊(duì)做起這個(gè)事來有差距？那你還真是想多了。他們知道GPT模型研發(fā)是怎么回事的時(shí)間，也就是最近這倆月的事。
那些大言不慚“在我眼里商湯和曠視就是賣安防攝像頭的”的一線投資經(jīng)理，那些傲然地跟創(chuàng)業(yè)者說“你這個(gè)模型又不是場(chǎng)景”的一線投資合伙人，更遑論那些歷史上幾乎不投人工智能，過去這么多年一直在鼓搗中國創(chuàng)業(yè)者“出?！备慵用茇泿诺拿涝顿Y基金的合伙人，今天都突然搖身一變，宣稱要支持創(chuàng)業(yè)者搞“中國的ChatGPT”了。那么你倒可以想想，他們的信誓旦旦和躊躇滿志，含有幾分對(duì)通用人工智能模型的理解和真誠，又有幾分是投機(jī)和算計(jì)。
你更可以想想，一個(gè)超級(jí)自然語義模型的訓(xùn)練可能一天就得燒幾千萬甚至上億人民幣，更何況現(xiàn)在提供大模型訓(xùn)練的算力模塊——世界頂級(jí)的GPU，因?yàn)槊绹臒o理禁運(yùn)而變得越來越難以獲取。以那些投資人過去這么多年的心性和行事風(fēng)格，他們又能堅(jiān)持得了幾天，肯說服投委會(huì)投多少筆錢進(jìn)去，還是能幫這些創(chuàng)業(yè)團(tuán)隊(duì)搞定GPU的問題？不定哪天，弄不好也就半年之后，他們就又開始催著這些做通用模型的團(tuán)隊(duì)，盡快“在細(xì)分領(lǐng)域?qū)崿F(xiàn)商業(yè)化”。
以百度對(duì)飛槳PaddlePaddle模型投入的堅(jiān)持，尚且不可避免它從一開始就將這個(gè)模型產(chǎn)業(yè)實(shí)踐化，盡快追求在不同行業(yè)的商業(yè)化。而在很大程度上，通用人工智能大模型的訓(xùn)練，存在著海量數(shù)據(jù)、高質(zhì)量有創(chuàng)造力的內(nèi)容輸出和產(chǎn)業(yè)應(yīng)用落地的“不可能之三角”。
能實(shí)現(xiàn)海量數(shù)據(jù)和高質(zhì)量有創(chuàng)造力的內(nèi)容輸出，就勢(shì)必不能快速應(yīng)用于某一個(gè)產(chǎn)業(yè)的具體落地——比如ChatGPT。
要想在人類創(chuàng)造的互聯(lián)網(wǎng)最大范圍的海量數(shù)據(jù)里創(chuàng)造具體的產(chǎn)業(yè)落地場(chǎng)景，就一定無法提供最高質(zhì)量的結(jié)果，因?yàn)榛诤Ａ繑?shù)據(jù)的內(nèi)容生成與精準(zhǔn)決策系統(tǒng)一定存在沖突——這其實(shí)是個(gè)廢物。
如果想實(shí)現(xiàn)高質(zhì)量的內(nèi)容輸出，以輔助精準(zhǔn)的產(chǎn)業(yè)落地場(chǎng)景決策，就一定得犧牲最海量的數(shù)據(jù)，而以大多數(shù)精準(zhǔn)的產(chǎn)業(yè)場(chǎng)景所擁有的數(shù)據(jù)，是無法支撐真正的大型模型訓(xùn)練和研究的——這是中國絕大多數(shù)“產(chǎn)業(yè)細(xì)分”人工智能解決方案今天面臨的困境，也是所謂“產(chǎn)業(yè)ChatGPT”是個(gè)換湯不換****的偽命題的原因。
那些今天摩拳擦掌要大舉殺入“中國的ChatGPT”的創(chuàng)業(yè)者和投資人們，且不說你們兜里有幾個(gè)錢和幾塊GPU，既然都上了這艘船，都覺得自己攥著船****，那通用人工智能的“不可能之三角”，你們決定舍掉哪一個(gè)角？這是個(gè)首先得想清楚的問題。
換而言之，哪個(gè)投資機(jī)構(gòu)——無論是財(cái)務(wù)投資機(jī)構(gòu)還是大公司的投資部門，有持之以恒數(shù)年如一日投入訓(xùn)練自然語義大模型，無限拉長(zhǎng)回報(bào)周期的定力？畢竟歷史告訴我們，這是一群最沒有定力，最著急找接盤俠的人。
中國從來就不缺優(yōu)秀的創(chuàng)業(yè)者和科學(xué)家，在人工智能領(lǐng)域同樣不例外。中國和美國科技公司在人工智能領(lǐng)域的水平和積累是全球范圍內(nèi)最接近的，至少幾年之前中國和美國在自然語義大模型的建構(gòu)和訓(xùn)練上的差距也并不大。但是中國確實(shí)缺一些視野更開闊、不人云亦云、有定力有遠(yuǎn)見的投資機(jī)構(gòu)和投資人。
沈向洋、李笛、馬維英、王小川和李志飛等這些人，他們出來做通用自然語義大模型的創(chuàng)業(yè)項(xiàng)目都挺靠譜，但問題是得換一批背后支持他們的投資機(jī)構(gòu)和投資人，有一些太擅長(zhǎng)“做局”和投機(jī)，在加密貨幣等賽道上浸淫太深的投資機(jī)構(gòu)混雜在其中，是應(yīng)該被拉進(jìn)黑名單的。
說句實(shí)話，盡管過去這么多年都沒什么正經(jīng)的投資機(jī)構(gòu)在看通用人工智能模型，可畢竟還是有一些機(jī)構(gòu)也投了不少回報(bào)周期極長(zhǎng)的人工智能公司。比如那些投資了中國本土激光雷達(dá)和自動(dòng)駕駛解決方案的VC，他們是對(duì)樹立中國在全球汽車產(chǎn)業(yè)百年未有之變局中全新的競(jìng)爭(zhēng)力做出過貢獻(xiàn)的。還比如那些投資了中國本土GPU的VC——這注定是一個(gè)充滿艱險(xiǎn)，面臨美國封禁和打壓，回報(bào)周期極其漫長(zhǎng)的賽道；但這些本土新崛起的GPU玩家——無論是瀚博、壁仞還是其它，它們未來是可能為中國的通用自然語義處理模型提供彈****的。它們背后的投資人，如果有一天真的謀定思動(dòng)，出手加持中國的自然語義大模型項(xiàng)目的話，我對(duì)他們可能有一些更不一樣的預(yù)期和信心。
只是這樣不咋咋呼呼、不拖后腿、不急功近利的投資人和投資機(jī)構(gòu)，不是太多，而是太少，但中國的自然語義模型建構(gòu)和訓(xùn)練需要這樣的投資人和投資機(jī)構(gòu)——無論它是財(cái)務(wù)投資者，還是戰(zhàn)略投資方，或是有國家意志加持的資本機(jī)構(gòu)。
中國要有自己的通用自然語義大模型，它需要有為全球通用人工智能提供中國智慧、中國價(jià)值體系和中國方案的愿景，需要從語料庫選擇、模型建構(gòu)與訓(xùn)練、參數(shù)調(diào)整的全過程前置規(guī)避風(fēng)險(xiǎn)和法律、道德與倫理問題，更需要的是定力和耐心。
無論如何，它不能投機(jī)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

誰拖了中國ChatGPT的后腿？

相關(guān)推薦

技術(shù)專區(qū)