大模型能自己「寫」論文了，還帶公式和參考文獻(xiàn)，試用版已上線

發(fā)布人：機(jī)器之心時(shí)間：2022-11-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Meta AI 提出了一個(gè)可以總結(jié)學(xué)術(shù)文獻(xiàn)，解決數(shù)學(xué)問(wèn)題的新模型，該模型還能生成百科文章，編寫科學(xué)代碼，注釋分子和蛋白質(zhì)等等。

近年來(lái)，隨著各學(xué)科領(lǐng)域研究的進(jìn)步，科學(xué)文獻(xiàn)和數(shù)據(jù)呈爆炸式增長(zhǎng)，使學(xué)術(shù)研究者從大量信息中發(fā)現(xiàn)有用的見(jiàn)解變得越來(lái)越困難。通常，人們借助搜索引擎來(lái)獲取科學(xué)知識(shí)，但搜索引擎不能自主組織科學(xué)知識(shí)。

現(xiàn)在，來(lái)自 Meta AI 的研究團(tuán)隊(duì)提出了一種新的大型語(yǔ)言模型 Galactica，可以存儲(chǔ)、組合和推理科學(xué)知識(shí)。

論文地址：https://galactica.org/static/paper.pdf
試用地址：https://galactica.org/

Galactica 模型有多強(qiáng)大呢，它可以自己總結(jié)歸納出一篇綜述論文：

也可以生成詞條的百科查詢：

對(duì)所提問(wèn)題作出知識(shí)性的回答：

這些任務(wù)對(duì)于人類學(xué)者來(lái)說(shuō)尚且是具有挑戰(zhàn)性的任務(wù)，但 Galactica 卻很好地完成了。圖靈獎(jiǎng)得主 Yann LeCun 也在推特上發(fā)文稱贊：

我們來(lái)看一下 Galactica 模型的具體細(xì)節(jié)。

模型概述

Galactica 模型是在大量的論文、參考資料、知識(shí)庫(kù)和許多其他來(lái)源的科學(xué)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練的，包括超過(guò) 4800 萬(wàn)篇論文、教科書(shū)和講義、數(shù)百萬(wàn)種化合物和蛋白質(zhì)知識(shí)、科學(xué)網(wǎng)站、百科全書(shū)等。與依賴于未經(jīng)整理的、基于網(wǎng)絡(luò)爬蟲(chóng)文本的現(xiàn)有語(yǔ)言模型不同，Galactica 訓(xùn)練所用的語(yǔ)料庫(kù)是高質(zhì)量且經(jīng)過(guò)高度整理的。該研究在不過(guò)擬合的前提下對(duì)模型進(jìn)行多個(gè) epoch 的訓(xùn)練，其中在上游和下游任務(wù)上的性能通過(guò)使用重復(fù)的 token 得到改善。

Galactica 的性能在一系列科學(xué)任務(wù)上優(yōu)于現(xiàn)有模型。在 LaTeX 方程式等技術(shù)知識(shí)的探索任務(wù)上，Galactica 與 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表現(xiàn)出色，在數(shù)學(xué) MMLU 基準(zhǔn)上的表現(xiàn)顯著優(yōu)于 Chinchilla。

盡管沒(méi)有接受過(guò)通用語(yǔ)料庫(kù)的訓(xùn)練，Galactica 在 BIG-bench 上的性能也優(yōu)于 BLOOM 和 OPT-175B。此外，它還在 PubMedQA 和 MedMCQA 開(kāi)發(fā)等下游任務(wù)上創(chuàng)下了 77.6% 和 52.9% 的性能新高。

簡(jiǎn)單來(lái)說(shuō)，該研究將逐步推理封裝在特殊的 token 中，以模仿內(nèi)部工作原理。這允許研究人員使用自然語(yǔ)言與模型進(jìn)行交互，下圖是 Galactica 的試用界面。

值得一提的是，除了文本生成，Galactica 還可以執(zhí)行涉及化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù)。這將為****物發(fā)現(xiàn)領(lǐng)域做出貢獻(xiàn)。

實(shí)現(xiàn)細(xì)節(jié)

本文的語(yǔ)料庫(kù)包含 1060 億個(gè) token，這些 token 來(lái)自論文、參考文獻(xiàn)、百科全書(shū)以及其他科學(xué)資料。可以說(shuō)該研究將自然語(yǔ)言資源（論文、參考書(shū)）與自然界中的序列（蛋白質(zhì)序列、化學(xué)形式）都囊括了。表 1 和表 2 中顯示了語(yǔ)料庫(kù)的細(xì)節(jié)。

語(yǔ)料庫(kù)有了，接下來(lái)是對(duì)數(shù)據(jù)怎么操作。一般來(lái)講，對(duì) tokenization 的設(shè)計(jì)是非常重要的。例如，蛋白質(zhì)序列是根據(jù)氨基酸殘基來(lái)編寫的，那么基于字符的 tokenization 是合適的。為了實(shí)現(xiàn) tokenization，該研究對(duì)不同的模態(tài)進(jìn)行了專門的 token 化。具體表現(xiàn)在（包括但不僅限于）：

引用：用特殊的參考 token[START_REF]和 [END_REF] 來(lái)包裝引用；
逐步推理：用 working memory token 來(lái)封裝逐步推理，模擬內(nèi)部 working memory 上下文；
數(shù)字：把數(shù)字分成單獨(dú)的 token。例如， 737612.62 → 7,3,7,6,1,2,.,6,2；
SMILES 公式：用 [START_SMILES] 和[END_SMILES]包裝序列，并應(yīng)用基于字符的 tokenization。同樣，該研究使用 [START_I_SMILES] 和[END_I_SMILES]來(lái)表示異構(gòu)體 SMILES。例如：C(C(=O)O)N→C，(，C，(，=，O，)，O，)，N；
DNA 序列：應(yīng)用一種基于字符的 tokenization，將每個(gè)核苷酸堿基視為一個(gè) token，其中起始 token 為 [START_DNA] 和[END_DNA]。例如，CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下圖 4 顯示了對(duì)一篇論文的引用進(jìn)行處理的示例。在處理引用時(shí)使用全局標(biāo)識(shí)符和特殊 token[START_REF]和 [END_REF] 來(lái)表示引用的地方。

數(shù)據(jù)集處理好之后，接下來(lái)就是怎么實(shí)現(xiàn)。Galactica 在 Transformer 架構(gòu)的基礎(chǔ)上進(jìn)行了以下修改：

GeLU 激活：將 GeLU 激活用于各種大小的模型；
上下文窗口：對(duì)于不同大小的模型，使用 2048 長(zhǎng)度的上下文窗口；
無(wú)偏置：遵循 PaLM，在密集內(nèi)核或?qū)右?guī)范中不使用偏置；
學(xué)習(xí)位置嵌入：學(xué)習(xí)位置嵌入用于模型；
詞匯表：使用 BPE 構(gòu)建一個(gè)包含 50k token 的詞匯表。

表 5 列出了不同大小模型以及訓(xùn)練超參數(shù)。

實(shí)驗(yàn)

重復(fù)的 token 被認(rèn)為是無(wú)害的

從圖 6 可以看出，在經(jīng)過(guò)四個(gè) epoch 的訓(xùn)練之后，驗(yàn)證損失繼續(xù)下降。擁有 120B 參數(shù)的模型在第五個(gè) epoch 開(kāi)始時(shí)才開(kāi)始過(guò)擬合。這是出乎意料的，因?yàn)楝F(xiàn)有的研究表明重復(fù)的 token 可能對(duì)性能有害。該研究還發(fā)現(xiàn)，30B 和 120B 的模型在 epoch-wise 后表現(xiàn)出雙下降效應(yīng)，即驗(yàn)證損失達(dá)到平穩(wěn)(或上升)，然后是下降。這種效果在每個(gè) epoch 后都變得更強(qiáng)，最明顯的是 120B 模型在訓(xùn)練結(jié)束時(shí)。

圖 8 結(jié)果顯示實(shí)驗(yàn)沒(méi)有出現(xiàn)過(guò)擬合跡象，這表明重復(fù) token 能夠提高下游和上游任務(wù)性能。

其他結(jié)果

鍵入公式太慢了，現(xiàn)在用提示就能生成 LaTeX：

在化學(xué)反應(yīng)中，要求 Galactica 在化學(xué)方程 LaTeX 中預(yù)測(cè)反應(yīng)的產(chǎn)物，模型僅根據(jù)反應(yīng)物就能進(jìn)行推理，結(jié)果如下：

表 7 中報(bào)告了一些其他結(jié)果：

Galactica 的推理能力。該研究首先在 MMLU mathematics 基準(zhǔn)上進(jìn)行評(píng)估，并在表 8 中報(bào)告了評(píng)估結(jié)果。Galactica 與較大的基礎(chǔ)模型相比表現(xiàn)強(qiáng)勁，并且使用 token 似乎可以提高 Chinchilla 的性能，即使對(duì)于較小的 30B Galactica 模型也是如此。

該研究還對(duì) MATH 數(shù)據(jù)集進(jìn)行了評(píng)估，以進(jìn)一步探索 Galactica 的推理能力：

從實(shí)驗(yàn)結(jié)果可以得出：Galactica 在思維鏈和提示方面都大大優(yōu)于基礎(chǔ) PaLM 模型。這表明 Galactica 在處理數(shù)學(xué)任務(wù)上是個(gè)更好的選擇。

在下游任務(wù)的評(píng)估結(jié)果如表 10 所示。Galactica 顯著優(yōu)于其他語(yǔ)言模型，并且在大多數(shù)任務(wù)中優(yōu)于更大的模型（Gopher 280B）。與 Chinchilla 相比，性能表現(xiàn)差異更大，Chinchilla 在子集任務(wù)上似乎更強(qiáng)：特別是高中科目以及數(shù)學(xué)較少、記憶密集型任務(wù)。相比之下，Galactica 往往在數(shù)學(xué)和研究生水平的任務(wù)中表現(xiàn)更好。