彭博開發(fā)BloombergGPT 提供專于金融AI信息服務

作者：時間：2023-04-07 來源：工商時報

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

美國財經(jīng)信息公司彭博（Bloomberg）近日宣布研發(fā)自有聊天機器人BloombergGPT，盼推出專于金融領域的人工智能（AI）信息處理應用，以提供客戶和記者更好的功能與服務。

本文引用地址：http://www.butianyuan.cn/article/202304/445416.htm

美國新聞業(yè)網(wǎng)站尼曼實驗室（Nieman Lab）報導，彭博3月31日發(fā)表研究論文詳述BloombergGPT的開發(fā)。據(jù)彭博介紹，BloombergGPT是「一個新的大規(guī)模生成式AI模型。這個大型語言模型（LLM）專門鎖定范圍廣泛的金融數(shù)據(jù)來訓練生成，目的為了支持多元化的金融產(chǎn)業(yè)自然語言處理（NLP）任務集」。

彭博表示，近期以大型語言模型為基礎的人工智能發(fā)展，已在許多領域展示出令人振奮的新應用；但金融領域因其復雜性及具有專門術語，有必要有專屬模型。因此BloombergGPT的推出，代表將聊天機器人這項新科技開發(fā)應用到金融產(chǎn)業(yè)的第一步。

彭博指出，BloombergGPT將協(xié)助其改善現(xiàn)有金融相關自然語言處理的任務，例如文本情感分析、命名實體辨識（NER）、新聞分類、回答問題和其他功能。此外，它也創(chuàng)造新機會來排列可從彭博終端機取得的巨量數(shù)據(jù)，以提供客戶更好的協(xié)助。

至于BloombergGPT的訓練規(guī)模，彭博表示它的語料庫有7000億余個token（字詞碎片）。相較之下，熱門聊天機器人ChatGPT的開發(fā)公司OpenAI在2020年推出的模型GPT-3，訓練的語料庫則約有5000億個token。

根據(jù)彭博說法，BloombergGPT的語料庫中，有3630億個token取自彭博自有金融數(shù)據(jù)，也就是來自彭博終端機的數(shù)據(jù)庫，彭博號稱這是「至今最大的特定領域數(shù)據(jù)集（dataset）」；其余3450億個token則是取自其他來源的通用數(shù)據(jù)集。

彭博還說，訓練數(shù)據(jù)分為財金類FinPile和一般The Pile兩類。其中FinPile包括彭博檔案庫中的各類英文金融文件，如新聞文章、公告、新聞稿、網(wǎng)頁內(nèi)容和社群媒體數(shù)據(jù)，以及彭博記者撰寫的新聞以外所有的新聞來源。

至于The Pile則是龐雜的語料庫，來源從YouTube的畫面擷取、文藝數(shù)字化的古騰堡計劃（Project Gutenberg）到AI訓練常見的安隆公司（Enron）電郵快取。

究竟BloombergGPT能夠如何應用？尼曼實驗室的文章表示，按照其訓練原理，它應該具有像ChatGPT的功能，但此外也能處理與彭博需求更相關的任務，例如將自然語言指令翻譯成彭博查詢語言（Bloomberg Query Language）終端機的用戶偏好功能。

BloombergGPT也能為新聞文章提議具有彭博新聞風格的標題。彭博還說，BloombergGPT更能勝任回答與商業(yè)有關的提問，無論是有關文本情感分析、分類、資料擷取或任何其他任務。

新聞中心

彭博開發(fā)BloombergGPT 提供專于金融AI信息服務

評論

相關推薦

技術專區(qū)