博客專欄

EEPW首頁(yè) > 博客 > 大模型能自己「寫」論文了,還帶公式和參考文獻(xiàn),試用版已上線

大模型能自己「寫」論文了,還帶公式和參考文獻(xiàn),試用版已上線

發(fā)布人:機(jī)器之心 時(shí)間:2022-11-19 來(lái)源:工程師 發(fā)布文章

Meta AI 提出了一個(gè)可以總結(jié)學(xué)術(shù)文獻(xiàn),解決數(shù)學(xué)問(wèn)題的新模型,該模型還能生成百科文章,編寫科學(xué)代碼,注釋分子和蛋白質(zhì)等等。


近年來(lái),隨著各學(xué)科領(lǐng)域研究的進(jìn)步,科學(xué)文獻(xiàn)和數(shù)據(jù)呈爆炸式增長(zhǎng),使學(xué)術(shù)研究者從大量信息中發(fā)現(xiàn)有用的見(jiàn)解變得越來(lái)越困難。通常,人們借助搜索引擎來(lái)獲取科學(xué)知識(shí),但搜索引擎不能自主組織科學(xué)知識(shí)。


現(xiàn)在,來(lái)自 Meta AI 的研究團(tuán)隊(duì)提出了一種新的大型語(yǔ)言模型 Galactica,可以存儲(chǔ)、組合和推理科學(xué)知識(shí)。


圖片

  • 論文地址:https://galactica.org/static/paper.pdf

  • 試用地址:https://galactica.org/


Galactica 模型有多強(qiáng)大呢,它可以自己總結(jié)歸納出一篇綜述論文:


圖片

也可以生成詞條的百科查詢:


圖片

對(duì)所提問(wèn)題作出知識(shí)性的回答:


圖片

這些任務(wù)對(duì)于人類學(xué)者來(lái)說(shuō)尚且是具有挑戰(zhàn)性的任務(wù),但 Galactica 卻很好地完成了。圖靈獎(jiǎng)得主 Yann LeCun 也在推特上發(fā)文稱贊:


圖片

我們來(lái)看一下 Galactica 模型的具體細(xì)節(jié)。


模型概述


Galactica 模型是在大量的論文、參考資料、知識(shí)庫(kù)和許多其他來(lái)源的科學(xué)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的,包括超過(guò) 4800 萬(wàn)篇論文、教科書(shū)和講義、數(shù)百萬(wàn)種化合物和蛋白質(zhì)知識(shí)、科學(xué)網(wǎng)站、百科全書(shū)等。與依賴于未經(jīng)整理的、基于網(wǎng)絡(luò)爬蟲(chóng)文本的現(xiàn)有語(yǔ)言模型不同,Galactica 訓(xùn)練所用的語(yǔ)料庫(kù)是高質(zhì)量且經(jīng)過(guò)高度整理的。該研究在不過(guò)擬合的前提下對(duì)模型進(jìn)行多個(gè) epoch 的訓(xùn)練,其中在上游和下游任務(wù)上的性能通過(guò)使用重復(fù)的 token 得到改善。


Galactica 的性能在一系列科學(xué)任務(wù)上優(yōu)于現(xiàn)有模型。在 LaTeX 方程式等技術(shù)知識(shí)的探索任務(wù)上,Galactica 與 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表現(xiàn)出色,在數(shù)學(xué) MMLU 基準(zhǔn)上的表現(xiàn)顯著優(yōu)于 Chinchilla。


盡管沒(méi)有接受過(guò)通用語(yǔ)料庫(kù)的訓(xùn)練,Galactica 在 BIG-bench 上的性能也優(yōu)于 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開(kāi)發(fā)等下游任務(wù)上創(chuàng)下了 77.6% 和 52.9% 的性能新高。


簡(jiǎn)單來(lái)說(shuō),該研究將逐步推理封裝在特殊的 token 中,以模仿內(nèi)部工作原理。這允許研究人員使用自然語(yǔ)言與模型進(jìn)行交互,下圖是 Galactica 的試用界面。


圖片

值得一提的是,除了文本生成,Galactica 還可以執(zhí)行涉及化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù)。這將為****物發(fā)現(xiàn)領(lǐng)域做出貢獻(xiàn)。


實(shí)現(xiàn)細(xì)節(jié)


本文的語(yǔ)料庫(kù)包含 1060 億個(gè) token,這些 token 來(lái)自論文、參考文獻(xiàn)、百科全書(shū)以及其他科學(xué)資料。可以說(shuō)該研究將自然語(yǔ)言資源(論文、參考書(shū))與自然界中的序列(蛋白質(zhì)序列、化學(xué)形式)都囊括了。表 1 和表 2 中顯示了語(yǔ)料庫(kù)的細(xì)節(jié)。


圖片

語(yǔ)料庫(kù)有了,接下來(lái)是對(duì)數(shù)據(jù)怎么操作。一般來(lái)講,對(duì) tokenization 的設(shè)計(jì)是非常重要的。例如,蛋白質(zhì)序列是根據(jù)氨基酸殘基來(lái)編寫的,那么基于字符的 tokenization 是合適的。為了實(shí)現(xiàn) tokenization,該研究對(duì)不同的模態(tài)進(jìn)行了專門的 token 化。具體表現(xiàn)在(包括但不僅限于):


  • 引用:用特殊的參考 token[START_REF]和 [END_REF] 來(lái)包裝引用;

  • 逐步推理:用 working memory token 來(lái)封裝逐步推理,模擬內(nèi)部 working memory 上下文;

  • 數(shù)字:把數(shù)字分成單獨(dú)的 token。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;

  • SMILES 公式:用 [START_SMILES] 和[END_SMILES]包裝序列,并應(yīng)用基于字符的 tokenization。同樣,該研究使用 [START_I_SMILES] 和[END_I_SMILES]來(lái)表示異構(gòu)體 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;

  • DNA 序列:應(yīng)用一種基于字符的 tokenization,將每個(gè)核苷酸堿基視為一個(gè) token,其中起始 token 為 [START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。


如下圖 4 顯示了對(duì)一篇論文的引用進(jìn)行處理的示例。在處理引用時(shí)使用全局標(biāo)識(shí)符和特殊 token[START_REF]和 [END_REF] 來(lái)表示引用的地方。


圖片

數(shù)據(jù)集處理好之后,接下來(lái)就是怎么實(shí)現(xiàn)。Galactica 在 Transformer 架構(gòu)的基礎(chǔ)上進(jìn)行了以下修改:


  • GeLU 激活:將 GeLU 激活用于各種大小的模型;

  • 上下文窗口:對(duì)于不同大小的模型,使用 2048 長(zhǎng)度的上下文窗口;

  • 無(wú)偏置:遵循 PaLM,在密集內(nèi)核或?qū)右?guī)范中不使用偏置;

  • 學(xué)習(xí)位置嵌入:學(xué)習(xí)位置嵌入用于模型;

  • 詞匯表:使用 BPE 構(gòu)建一個(gè)包含 50k token 的詞匯表。


表 5 列出了不同大小模型以及訓(xùn)練超參數(shù)。


圖片

實(shí)驗(yàn)


重復(fù)的 token 被認(rèn)為是無(wú)害的


從圖 6 可以看出,在經(jīng)過(guò)四個(gè) epoch 的訓(xùn)練之后,驗(yàn)證損失繼續(xù)下降。擁有 120B 參數(shù)的模型在第五個(gè) epoch 開(kāi)始時(shí)才開(kāi)始過(guò)擬合。這是出乎意料的,因?yàn)楝F(xiàn)有的研究表明重復(fù)的 token 可能對(duì)性能有害。該研究還發(fā)現(xiàn),30B 和 120B 的模型在 epoch-wise 后表現(xiàn)出雙下降效應(yīng),即驗(yàn)證損失達(dá)到平穩(wěn)(或上升),然后是下降。這種效果在每個(gè) epoch 后都變得更強(qiáng),最明顯的是 120B 模型在訓(xùn)練結(jié)束時(shí)。


圖片

圖 8 結(jié)果顯示實(shí)驗(yàn)沒(méi)有出現(xiàn)過(guò)擬合跡象,這表明重復(fù) token 能夠提高下游和上游任務(wù)性能。


圖片

其他結(jié)果


鍵入公式太慢了,現(xiàn)在用提示就能生成 LaTeX:


圖片

在化學(xué)反應(yīng)中,要求 Galactica 在化學(xué)方程 LaTeX 中預(yù)測(cè)反應(yīng)的產(chǎn)物,模型僅根據(jù)反應(yīng)物就能進(jìn)行推理,結(jié)果如下:


圖片

表 7 中報(bào)告了一些其他結(jié)果:


圖片

Galactica 的推理能力。該研究首先在 MMLU mathematics 基準(zhǔn)上進(jìn)行評(píng)估,并在表 8 中報(bào)告了評(píng)估結(jié)果。Galactica 與較大的基礎(chǔ)模型相比表現(xiàn)強(qiáng)勁,并且使用 token 似乎可以提高 Chinchilla 的性能,即使對(duì)于較小的 30B Galactica 模型也是如此。


圖片

該研究還對(duì) MATH 數(shù)據(jù)集進(jìn)行了評(píng)估,以進(jìn)一步探索 Galactica 的推理能力:


圖片

從實(shí)驗(yàn)結(jié)果可以得出:Galactica 在思維鏈和提示方面都大大優(yōu)于基礎(chǔ) PaLM 模型。這表明 Galactica 在處理數(shù)學(xué)任務(wù)上是個(gè)更好的選擇。


在下游任務(wù)的評(píng)估結(jié)果如表 10 所示。Galactica 顯著優(yōu)于其他語(yǔ)言模型,并且在大多數(shù)任務(wù)中優(yōu)于更大的模型(Gopher 280B)。與 Chinchilla 相比,性能表現(xiàn)差異更大,Chinchilla 在子集任務(wù)上似乎更強(qiáng):特別是高中科目以及數(shù)學(xué)較少、記憶密集型任務(wù)。相比之下,Galactica 往往在數(shù)學(xué)和研究生水平的任務(wù)中表現(xiàn)更好。


圖片

該研究還評(píng)估了 Chinchilla 在給定輸入上下文的情況下預(yù)測(cè)引用的能力,這是對(duì) Chinchilla 組織科學(xué)文獻(xiàn)能力的一個(gè)重要測(cè)試。結(jié)果如下:


圖片

更多實(shí)驗(yàn)內(nèi)容,請(qǐng)參考原論文。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

高通濾波器相關(guān)文章:高通濾波器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉