博客專欄

EEPW首頁 > 博客 > ChatGPT被廢黜:Claude如何成為新的AI領導者

ChatGPT被廢黜:Claude如何成為新的AI領導者

發(fā)布人:ygtu 時間:2023-08-04 來源:工程師 發(fā)布文章

在過去的幾個月里,我們已經習慣了人工智能的不斷突破。 但不是破紀錄的公告,將新標準設定為之前的10倍,這正是Anthropic對其最新版本的聊天機器人Claude所做的,ChatGPT的最大競爭對手。 這簡直讓周圍的每個人都感到羞恥。 現在,您很快就會將數小時的文本和信息搜索變成幾秒鐘,將生成式 AI 聊天機器人從簡單的對話代理發(fā)展成為真正改變游戲規(guī)則的工具,適合您和周圍的人。

ChatGPT被廢黜:Claude如何成為新的AI領導者

推薦:使用NSDT場景編輯器助你快速搭建可二次編輯的3D應用場景

一個強大而專注于做善事的聊天機器人

如您所知,通過GenAI,我們?yōu)锳I打開了一個窗口來生成文本或圖像之類的東西,這很棒。

但與技術中的任何東西一樣,它伴隨著權衡,因為GenAI模型缺乏對“好”或“壞”的認識或判斷。

實際上,他們已經通過模仿人類生成的數據來實現生成文本的能力,這些數據通常隱藏著有爭議的偏見和可疑的內容。

可悲的是,隨著這些模型變得越來越大,無論內容如何,簡單地給它任何你能找到的文本的動機都是特別誘人的。

這會帶來巨大的風險。

對齊問題

由于缺乏判斷力,基礎大型語言模型或通常所說的基本LLM特別危險,因為它們非常容易受到學習訓練數據隱藏的偏見的影響,因為它們重演了相同的行為。

例如,如果數據偏向種族主義,這些LLM就會成為它的活生生的體現。這同樣適用于同性戀恐懼癥和你能想象到的任何其他歧視。

因此,考慮到許多人將互聯網視為測試他們不道德和不道德極限的完美游樂場,LLM已經接受了幾乎所有互聯網的培訓,沒有任何護欄的事實說明了潛在的風險。

值得慶幸的是,像 ChatGPT 這樣的模型是這些基本模型的演變,通過調整它們對人類認為“適當”的反應來實現的。

這是使用一種被稱為人類反饋強化學習(RLHF)的獎勵機制完成的。

特別是,ChatGPT通過OpenAI工程師的命令性判斷進行了過濾,將一個非常危險的模型轉變?yōu)椴粌H偏見少得多,而且在遵循說明方面也更有用和出色。

不出所料,這些LLM通常被稱為指令調整語言模型。

當然,OpenAI工程師不應該負責決定對世界其他地方的好壞,因為他們也有相當多的偏見(文化,種族等)。

歸根結底,即使是最有道德的人也有偏見。

不用說,這個過程并不完美。

我們已經看到,在一些案例中,這些模型盡管據稱是一致的,但對用戶采取了粗略的、幾乎是卑鄙的方式,正如許多 Bing 所遭受的那樣,迫使Microsoft將交互的上下文限制在事情橫盤整理之前只有幾條消息。

考慮到所有這些,當兩位前OpenAI研究人員創(chuàng)立Anthropic時,他們想到了另一個想法...... 他們將使用人工智能而不是人類來對齊他們的模型,并采用完全革命性的自我對齊概念。

從Massachusetts到人工智能

首先,該團隊起草了一部憲法,其中包括《世界人權宣言》或蘋果的服務條款。

通過這種方式,該模型不僅被教導預測句子中的下一個單詞(就像任何其他語言模型一樣),而且還必須在它給出的每個響應中考慮決定它可以說什么或不說什么的憲法。

接下來,真正的人工智能不是人類,而是負責對齊模型,有可能將其從人類偏見中解放出來。

但Anthropic最近發(fā)布的關鍵消息不是將他們的模型與人類可以容忍和利用AI的東西對齊的概念,而是最近的一項公告,使Claude成為GenAI戰(zhàn)爭中堅定不移的主導者。

具體來說,它已將其上下文窗口從 9,000 個代幣增加到 100,000 個。前所未有的改進,具有無與倫比的影響。

但這是什么意思,這些含義是什么?

一切都與代幣有關

讓我明確一點,這個“代幣”概念的重要性不容忽視,因為盡管很多人可能會告訴你,LLM 不會預測序列中的下一個單詞......至少不是字面意思。

生成響應時,LLM 會預測下一個標記,該標記通常表示 3 到 4 個字符,而不是下一個單詞。

當然,這些標記可以代表一個單詞,或者單詞可以由其中幾個組成(作為參考,100 個標記代表大約 75 個單詞)。

在運行推理時,像 ChatGPT 這樣的模型將你提供給它們的文本分解成幾部分,并執(zhí)行一系列矩陣計算,這個概念被定義為自我注意,將文本中的所有不同標記組合在一起,以了解每個標記如何影響其余部分。

這樣,模型就可以“學習”文本的含義和上下文,然后可以繼續(xù)響應。

問題是這個過程對于模型來說是非常計算密集型的。

準確地說,計算要求與輸入長度是二次的,因此您提供的文本(稱為上下文窗口)越長,在訓練和推理時間中運行模型的成本就越高。

這些迫使研究人員大大限制提供給這些模型的輸入大小,大約在2,000到8,000個令牌之間的標準比例,后者約為6,000個單詞。

可以預見的是,限制上下文窗口已經嚴重削弱了LLM影響我們生活的能力,使它們成為一個有趣的工具,可以幫助您解決一些事情。

但是,為什么增加此上下文窗口可以釋放LLM的最大潛力?

嗯,很簡單,因為它解鎖了LLM最強大的功能,上下文學習。

無需培訓即可學習

簡而言之,LLM具有一種罕見的能力,使他們能夠“在旅途中”學習。

如您所知,培訓LLM既昂貴又危險,特別是因為要培訓它們,您必須將您的數據交給他們,如果您想保護您的隱私,這不是最佳選擇。

此外,每天都有新數據出現,所以如果你不得不不斷地微調——進一步訓練——你的模型,LLM的商業(yè)案例將絕對被拆除。

幸運的是,LLM擅長這個被描述為上下文學習的概念,這是他們在不實際修改模型權重的情況下學習的能力。

換句話說,他們可以學會回答您的查詢,只需向他們提供所需的數據,同時您向他們請求您需要的任何內容......無需實際訓練模型。

這個概念,也稱為零鏡頭學習或少鏡頭學習(取決于它需要多少次看到要學習的數據),是LLM使用他們以前從未見過的數據準確響應給定請求的能力,直到那個時間點。

因此,上下文窗口越大,您可以提供給它們的數據就越多,因此它可以回答的查詢就越復雜。

因此,盡管小上下文窗口可以用于聊天和其他更簡單的任務,但它們完全無法處理真正強大的任務......直到現在。

秒內星球大戰(zhàn)傳奇

我會進入正題。

正如我之前提到的,最新版本的 Claude 1.3 版可以一次性攝取 100,000 個代幣,或大約 75,000 個單詞。

但這并不能告訴你很多,不是嗎?

讓我給你一個更好的了解,什么是適合75,000字。

從弗蘭肯斯坦到阿納金

你現在正在閱讀的文章不到2字,比Claude現在一口氣攝入的文章少了000.37倍以上。

但是什么是可比規(guī)模的例子? 好吧,更具體地說,75,000字代表:

  • 大約瑪麗雪萊的弗蘭肯斯坦書的總長度

  • 整本《哈利·波特與魔法石》全書,共 76,944 字

  • 任何納尼亞傳奇書籍,因為所有書籍的字數都較小

  • 最令人印象深刻的是,它足以包括多達 8 部星球大戰(zhàn)電影的對話......組合的

現在,考慮一個聊天機器人,它可以在幾秒鐘內讓你有能力向它詢問任何你想要的關于任何給定文本的信息。

例如,我最近看了一個視頻,他們給了Claude一個長達五個小時的約翰·科馬克播客,這個模型不僅能夠用幾個詞總結整個播客,還能夠在五個小時的演講中指出在一個精確的時刻所說的特定內容。

令人難以置信的是,這個模型不僅能夠用75,000字的成績單做到這一點,而且令人興奮的是,它還可以使用它第一次看到的數據。

毫無疑問,對于學生、律師、研究科學家以及基本上任何必須同時處理大量數據的人來說,這是巔峰解決方案。

對我來說,這是人工智能的范式轉變,這是我們很少見過的。

毫無疑問,真正顛覆性創(chuàng)新的大門已經為法學碩士打開。

令人難以置信的是,人工智能在短短幾個月內發(fā)生了怎樣的變化,每周的變化速度也有多快。我們唯一知道的是它正在發(fā)生變化......一次一個令牌。

原文鏈接:ChatGPT被廢黜:Claude如何成為新的AI領導者 (mvrlink.com)


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: AI 人工智能 chatgpt

相關推薦

技術專區(qū)

關閉