谷歌：人工智能可以自動(dòng)完成文本摘要

作者：時(shí)間：2020-01-08 來源：網(wǎng)易智能

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

自動(dòng)文本摘要是機(jī)器學(xué)習(xí)算法正在努力的方向之一，微軟近期發(fā)布的相關(guān)論文也表明了這一趨勢(shì)。對(duì)于那些每天要閱讀大量文字信息的工作者們來說，這是一個(gè)值得慶賀的好消息。有調(diào)查顯示，這類工作者每天僅在閱讀信息上就要花費(fèi)大約2.6小時(shí)。

本文引用地址：http://www.butianyuan.cn/article/202001/409000.htm

相應(yīng)的，Google Brain和倫敦帝國理工學(xué)院的一個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)系統(tǒng)——Pegasus（Pre-training with Extracted Gap-sentences for Abstractive Summarization Sequence-to-sequence），它使用了谷歌的變形金剛架構(gòu)，結(jié)合了針對(duì)文本摘要能力的預(yù)訓(xùn)練目標(biāo)。據(jù)稱，它在12種測(cè)試中均達(dá)到了達(dá)到最先進(jìn)的水平，這些測(cè)試包括了科學(xué)、故事、電子郵件、專利和立法法案等。不僅如此，它在材料缺乏的文本整合測(cè)試中也表現(xiàn)驚人。

正如研究人員指出的那樣，文本摘要的目的是總結(jié)輸入的文檔，生成其準(zhǔn)確和簡潔的摘要。

抽象的摘要也不是簡單地從輸入的文本中復(fù)制粘貼文字的片段，而是會(huì)產(chǎn)生新單詞或總結(jié)重要信息，從而使輸出的語言保持流暢。

變形金剛是Google Brain (谷歌的人工智能研究部門)的研究人員在介紹的一種神經(jīng)結(jié)構(gòu)。

它提取特征以及學(xué)習(xí)做出預(yù)測(cè)的方式和所有的深度神經(jīng)網(wǎng)絡(luò)一樣：神經(jīng)元被安排在相互連接的層中，這些層傳遞著輸入數(shù)據(jù)的信號(hào)，調(diào)整每個(gè)連接的權(quán)重。

但變形金剛架構(gòu)又有其獨(dú)特之處：每個(gè)輸出元素和每個(gè)輸入元素都有連接，并動(dòng)態(tài)計(jì)算它們之間的權(quán)重。

在測(cè)試中，研究小組選擇了表現(xiàn)最佳的Pegasus模型，該模型包含了5.68億個(gè)參數(shù)。它有兩個(gè)訓(xùn)練材料。一個(gè)是從3.5億個(gè)網(wǎng)頁中提取出來的文本，有750GB。還有一個(gè)訓(xùn)練材料則覆蓋了15億篇新聞?lì)愋偷奈恼?，總?jì)3.8TB。研究人員說，在后者的情況下，他們用白名單域來植入網(wǎng)絡(luò)爬蟲工具，覆蓋了質(zhì)量參差不齊的內(nèi)容。

根據(jù)研究員的說法，Pegasus生成的摘要語言非常優(yōu)秀，流暢性和連貫性都達(dá)到了高水準(zhǔn)。此外，在文本匱乏的環(huán)境中，即使只有100篇示例文章，它生成的摘要質(zhì)量與在20,000到200,000篇文章的完整數(shù)據(jù)集上訓(xùn)練過的模型相當(dāng)。

新聞中心

谷歌：人工智能可以自動(dòng)完成文本摘要

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)