彭博開發(fā)BloombergGPT 提供專于金融AI信息服務(wù)
美國財經(jīng)信息公司彭博(Bloomberg)近日宣布研發(fā)自有聊天機(jī)器人BloombergGPT,盼推出專于金融領(lǐng)域的人工智能(AI)信息處理應(yīng)用,以提供客戶和記者更好的功能與服務(wù)。
美國新聞業(yè)網(wǎng)站尼曼實驗室(Nieman Lab)報導(dǎo),彭博3月31日發(fā)表研究論文詳述BloombergGPT的開發(fā)。據(jù)彭博介紹,BloombergGPT是「一個新的大規(guī)模生成式AI模型。這個大型語言模型(LLM)專門鎖定范圍廣泛的金融數(shù)據(jù)來訓(xùn)練生成,目的為了支持多元化的金融產(chǎn)業(yè)自然語言處理(NLP)任務(wù)集」。
彭博表示,近期以大型語言模型為基礎(chǔ)的人工智能發(fā)展,已在許多領(lǐng)域展示出令人振奮的新應(yīng)用;但金融領(lǐng)域因其復(fù)雜性及具有專門術(shù)語,有必要有專屬模型。因此BloombergGPT的推出,代表將聊天機(jī)器人這項新科技開發(fā)應(yīng)用到金融產(chǎn)業(yè)的第一步。
彭博指出,BloombergGPT將協(xié)助其改善現(xiàn)有金融相關(guān)自然語言處理的任務(wù),例如文本情感分析、命名實體辨識(NER)、新聞分類、回答問題和其他功能。此外,它也創(chuàng)造新機(jī)會來排列可從彭博終端機(jī)取得的巨量數(shù)據(jù),以提供客戶更好的協(xié)助。
至于BloombergGPT的訓(xùn)練規(guī)模,彭博表示它的語料庫有7000億余個token(字詞碎片)。相較之下,熱門聊天機(jī)器人ChatGPT的開發(fā)公司OpenAI在2020年推出的模型GPT-3,訓(xùn)練的語料庫則約有5000億個token。
根據(jù)彭博說法,BloombergGPT的語料庫中,有3630億個token取自彭博自有金融數(shù)據(jù),也就是來自彭博終端機(jī)的數(shù)據(jù)庫,彭博號稱這是「至今最大的特定領(lǐng)域數(shù)據(jù)集(dataset)」;其余3450億個token則是取自其他來源的通用數(shù)據(jù)集。
彭博還說,訓(xùn)練數(shù)據(jù)分為財金類FinPile和一般The Pile兩類。其中FinPile包括彭博檔案庫中的各類英文金融文件,如新聞文章、公告、新聞稿、網(wǎng)頁內(nèi)容和社群媒體數(shù)據(jù),以及彭博記者撰寫的新聞以外所有的新聞來源。
至于The Pile則是龐雜的語料庫,來源從YouTube的畫面擷取、文藝數(shù)字化的古騰堡計劃(Project Gutenberg)到AI訓(xùn)練常見的安隆公司(Enron)電郵快取。
究竟BloombergGPT能夠如何應(yīng)用?尼曼實驗室的文章表示,按照其訓(xùn)練原理,它應(yīng)該具有像ChatGPT的功能,但此外也能處理與彭博需求更相關(guān)的任務(wù),例如將自然語言指令翻譯成彭博查詢語言(Bloomberg Query Language)終端機(jī)的用戶偏好功能。
BloombergGPT也能為新聞文章提議具有彭博新聞風(fēng)格的標(biāo)題。彭博還說,BloombergGPT更能勝任回答與商業(yè)有關(guān)的提問,無論是有關(guān)文本情感分析、分類、資料擷取或任何其他任務(wù)。
評論