AI 大模型最新突破：幫科學(xué)家讀論文，小菜一碟

發(fā)布人：傳感器技術(shù) 時(shí)間：2022-11-17 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

作者 | 施方圓

編輯 | 陳彩嫻

自人類邁入信息時(shí)代開始，信息資源總量越來越多，信息過載的現(xiàn)象非常嚴(yán)重。

英國學(xué)者帶姆·喬丹曾說：“擁有太多信息使信息的利用變得不可能?！?美國工程師 Vannever Bush 也觀察到信息過載的情況，在上個(gè)世紀(jì)就提出通過計(jì)算機(jī)來解決日益龐大的信息量問題。

Meta AI 新近推出的語言大模型 Galactica，正是在這樣的背景下誕生。

由于語言模型可以潛在地儲存、組織和推理科學(xué)知識，所以語言模型可以作為一種工具幫人類處理大量的信息。例如，語言模型可以在一個(gè)文獻(xiàn)訓(xùn)練中發(fā)現(xiàn)不同研究中潛在的聯(lián)系，并讓這些見解浮出水面。Galactica 通過自動生成二次內(nèi)容來整合知識，將論文與代碼連接起來，為科學(xué)研究提供動力。

目前，Meta AI 已開放了 Galactica 所有模型的源代碼。

論文地址：https://galactica.org/static/paper.pdfgithub地址：https://github.com/paperswithcode/galai

1
精心設(shè)計(jì)的語料庫

近年來，大型語言模型在 NLP 任務(wù)上取得了突破性的進(jìn)展。這些模型在大型通用語料庫上進(jìn)行自我監(jiān)督訓(xùn)練，并在數(shù)百個(gè)任務(wù)中表現(xiàn)良好。

但自監(jiān)督的一個(gè)缺點(diǎn)是傾向使用未經(jīng)整理的數(shù)據(jù)，模型可能反映語料庫中的錯(cuò)誤信息、刻板印象和偏見等。對于重視真理的科學(xué)任務(wù)來說，這是不可取的，未經(jīng)整理的數(shù)據(jù)也意味著會浪費(fèi)更多算力預(yù)算。

Galactica 用一個(gè)大型科學(xué)語料庫訓(xùn)練一個(gè)單一的神經(jīng)網(wǎng)絡(luò)，以學(xué)習(xí)不同的科學(xué)語言。Galactica 的語料庫包括了論文、參考資料、百科全書和其他學(xué)科資源的 1060 億個(gè) token 組成，集合了自然語言來源，如論文、教科書和自然序列，如蛋白質(zhì)序列和化學(xué)公式，能夠捕捉到 LATEX 并對其進(jìn)行處理，同時(shí)還用學(xué)術(shù)代碼捕捉計(jì)算科學(xué)。

與其他規(guī)模更大、未經(jīng)策劃的大型語言模型項(xiàng)目相比，Galactica 使用的數(shù)據(jù)集規(guī)模更小，而且是經(jīng)過精心策劃的，這很關(guān)鍵，即我們能否在一個(gè)經(jīng)過策劃和規(guī)范的語料庫上制造一個(gè)好的大型語言模型。如果可以，我們就能通過設(shè)置語料庫的內(nèi)容，更有目的性地設(shè)計(jì)出大型語言模型。

研發(fā)者們主要通過專業(yè)化標(biāo)記來設(shè)計(jì)數(shù)據(jù)集，這會形成不同的模態(tài)，例如：蛋白質(zhì)序列是根據(jù)氨基酸殘基來寫的。研發(fā)團(tuán)隊(duì)還對不同模態(tài)進(jìn)行了專門的標(biāo)簽化。在處理好了數(shù)據(jù)集后，研發(fā)者們在 Galactic 的****設(shè)置中使用了 Transformer 架構(gòu)，并進(jìn)行了以下修改：

GeLU 激活——對所有模型的尺寸都使用了 GeLU 激活；

上下文窗口——對所有的模型尺寸都使用了 2048 長度的上下文窗口；

無偏差——遵循 PaLM ，不在任何密集核或?qū)右?guī)范中使用偏差；

學(xué)習(xí)的位置嵌入——對模型使用學(xué)習(xí)的位置嵌入，在較小的尺度上試驗(yàn)了 ALi Bi ，但沒有觀察到大的收益，所以研發(fā)者們沒有使用它；

詞語——使用 BPE 構(gòu)建了一個(gè)包含 50k 個(gè)標(biāo)記組成的詞匯表，詞匯量是由隨機(jī)選擇的 2% 的訓(xùn)練數(shù)據(jù)子集中產(chǎn)生的。

2
實(shí)驗(yàn)效果

研發(fā)者們還對大型語言模型作為科學(xué)模式和自然語言之間的橋梁的潛力進(jìn)行了初步調(diào)查，展示了 Galactica 可以通過自監(jiān)督來學(xué)習(xí) IUPAC 命名等任務(wù)。他們發(fā)現(xiàn)，增加連接自然語言和自然序列的數(shù)據(jù)及數(shù)量和大小可能進(jìn)一步提高模型的性能。

研發(fā)者們認(rèn)為語言模型有更多潛力承擔(dān)目前人類所擅長的事情。

而且為了考察 Galactica 吸收知識的情況，研發(fā)者們還建立了幾個(gè)知識探針的基準(zhǔn)，并用于確定語料庫內(nèi)的知識差距，并告知如何確定語料庫內(nèi)的知識差距和迭代語料庫。

另外，Galactica 在推理方面表現(xiàn)十分出色，在數(shù)學(xué) MMLU 上的表現(xiàn)優(yōu)于 Chinchilla 41.3% 至 35.7%，在 MATH 上的 PaLM 540B 得分分別為 20.4% 和 8.8%。

在經(jīng)過四個(gè) epoch 的訓(xùn)練之后，最大的 120B 參數(shù)模型從第五個(gè) epoch 才開始過度擬合。

盡管沒有接受過一般語料庫的訓(xùn)練，但 Galactica 在 BIG-bench 上的表現(xiàn)優(yōu)于 BLOOM 和 OPT-175B。根據(jù)評估，Galactica 的毒性也明顯低于其他語言模型。

3
Galactica 猶如自動駕駛

Meta AI 發(fā)布 Galactica 后，在 AI 領(lǐng)域引起廣泛注意，并收獲了一眾好評。

Yann LeCun 評論：這個(gè)工具（ Galactica ）于論文寫作而言，就像輔助駕駛之于駕駛一樣，它不會幫你自動寫論文，但它會在你寫論文的時(shí)候大大減輕你的認(rèn)知負(fù)擔(dān)。

其他研究者則評論：

太神奇了！Galactica 甚至可以針對某個(gè)領(lǐng)域?qū)懺u論，推導(dǎo) SVM ，告訴我什么是線性回歸算法！只是生產(chǎn)內(nèi)容的長度好像有限制？

真是太神奇了！我只是用這個(gè)來幫我寫“選擇性注意研究”評論——它看起來很不錯(cuò)，也許下一步它就可以產(chǎn)生真正的想法！

50 多年來，人類獲取科學(xué)知識的主要方式一直是通過存儲和檢索，信息的推理、組合、組織無法依靠機(jī)器，只能通過人的努力完成，這導(dǎo)致知識吞吐量存在瓶頸。在 Galactica 的實(shí)踐中，研發(fā)者們探討了語言模型可能如何破壞這種舊的形式，帶來人與知識的新接口。

從長遠(yuǎn)來看，語言模型的上下文關(guān)聯(lián)能力可能會給搜索引擎帶來顯著優(yōu)勢。在 Galactica 的實(shí)踐中，研發(fā)者們還證明語言模型可以是一個(gè)精心策劃的知識庫，執(zhí)行知識密集型的問答任務(wù)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

led顯示器相關(guān)文章:led顯示器原理

博客專欄

AI 大模型最新突破：幫科學(xué)家讀論文，小菜一碟

相關(guān)推薦

技術(shù)專區(qū)