微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

作者：時間：2024-03-28 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近年來，人工智能發(fā)展迅速，尤其是像 ChatGPT 這樣的基礎(chǔ)大模型，在對話、上下文理解和代碼生成等方面表現(xiàn)出色，能夠為多種任務(wù)提供解決方案。

本文引用地址：http://www.butianyuan.cn/article/202403/456948.htm

但在特定領(lǐng)域任務(wù)上，由于專業(yè)數(shù)據(jù)的缺乏和可能的計算錯誤，它們的表現(xiàn)并不理想。同時，雖然已有一些專門針對特定任務(wù)的 AI 模型和系統(tǒng)表現(xiàn)良好，但它們往往不易與基礎(chǔ)大模型集成。

為了解決這些重要問題，TaskMatrix.AI 破繭而出、應(yīng)運而生，這是由微軟（Microsoft）設(shè)計發(fā)布的新型 AI 生態(tài)系統(tǒng)。

其核心技術(shù)近期在《科學(xué)》合作期刊 Intelligent Computing 上發(fā)表的論文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相，作者為微軟亞洲研究院的段楠博士團隊：

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

（詳見鏈接：https://spj.science.org/doi/10.34133/icomputing.0063）

TaskMatrix.AI 將基礎(chǔ)大模型與數(shù)以百萬計的應(yīng)用程序編程接口（APIs）連接起來完成任務(wù)。

其核心思想是利用現(xiàn)有的基礎(chǔ)大模型作為類似大腦的中央系統(tǒng)，結(jié)合其他 AI 模型和系統(tǒng)的 APIs 作為各種子任務(wù)解決者，以完成數(shù)字和物理領(lǐng)域的多樣化任務(wù)。

圖由 DALL?E 3 生成

▲ 圖由 DALL?E 3 生成

TaskMatrix.AI 如何工作？

TaskMatrix.AI 的整體架構(gòu)由以下四個關(guān)鍵組件構(gòu)成：

多模態(tài)對話基礎(chǔ)模型（MCFM）：負(fù)責(zé)與用戶溝通，理解他們的目標(biāo)和上下文（多模態(tài)），并基于 API 生成可執(zhí)行代碼以完成特定任務(wù)。MCFM 能夠處理文本、圖像、視頻、音頻和代碼等多模態(tài)輸入，生成執(zhí)行特定任務(wù)的代碼。它還能夠從用戶指令中提取具體任務(wù)，并提出合理的解決方案大綱，幫助選擇最合適的 API 進行代碼生成。
API 平臺：提供一個統(tǒng)一的 API 文檔架構(gòu)，用于存儲數(shù)以百萬計具有不同功能的 API，并允許 API 開發(fā)者和所有者注冊、更新和刪除他們的 API。API 平臺通過統(tǒng)一的文檔架構(gòu)幫助 MCFM 更好地理解和利用各種 API。
API 選擇器：根據(jù) MCFM 對用戶指令的理解，推薦相關(guān)的 API。API 選擇器具備搜索能力，能夠在擁有大量 API 的平臺上快速定位到與任務(wù)需求和解決方案大綱相匹配的 API。
API 執(zhí)行器：通過調(diào)用相關(guān) API 執(zhí)行生成的動作代碼，并返回中間和最終的執(zhí)行結(jié)果。API 執(zhí)行器設(shè)計用于運行各種 API，包括從簡單的 HTTP 請求到復(fù)雜的算法或需要多個輸入?yún)?shù)的 AI 模型。

以上四個組件協(xié)同工作，共同構(gòu)建了一個高效的系統(tǒng)。MCFM 作為用戶交互的主要接口，負(fù)責(zé)生成解決方案。API 平臺則提供了一個標(biāo)準(zhǔn)化的 API 文檔格式，并作為一個集中存儲庫，容納了數(shù)百萬 API。API 選擇器根據(jù) MCFM 對用戶需求的理解，從 API 平臺中選取合適的 API。

最后，API 執(zhí)行器負(fù)責(zé)執(zhí)行由選定 API 生成的代碼，并解決任務(wù)。

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

此外，TaskMatrix.AI 還提供了兩個可學(xué)習(xí)的機制，以更有效地將 MCFM 與 API 對齊：

基于人類反饋的強化學(xué)習(xí)（RLHF）：這是一種基礎(chǔ)大模型的通用技術(shù)，它使用強化學(xué)習(xí)方法，利用人類反饋來優(yōu)化機器學(xué)習(xí)模型。在 TaskMatrix.AI 中，RLHF 利用這些反饋來增強 MCFM 和 API 選擇器，從而在處理復(fù)雜任務(wù)時實現(xiàn)更快的收斂和更好的性能。
向 API 開發(fā)者提供反饋：TaskMatrix.AI 完成任務(wù)后，會將用戶反饋以適當(dāng)?shù)姆绞絺鬟f給 API 開發(fā)者，指示他們的 API 是否成功用于完成任務(wù)。這種包含 <用戶指令、API 調(diào)用和用戶反饋> 的三元組不僅展示特定 API 的使用情況，還可以作為 API 開發(fā)者改進 API 文檔的參考，使文檔對 MCFM 和 API 選擇器更加友好和易于理解。

因此，TaskMatrix.AI 可以被視為一個超級 AI，同時也是一個生態(tài)系統(tǒng)，具有以下關(guān)鍵優(yōu)勢：

能夠通過使用基礎(chǔ)大模型作為核心系統(tǒng)，首先理解不同類型的多模態(tài)輸入（如文本、圖像、視頻、音頻和代碼），然后生成調(diào)用 API 完成任務(wù)的代碼，來執(zhí)行各種數(shù)字和物理任務(wù)。
擁有一個 API 平臺，作為各種任務(wù)專家的存儲庫。該平臺上的所有 API 都有一致的文檔格式，這使得基礎(chǔ)大模型可以輕松使用它們，開發(fā)者也便于添加新的 API。
具有強大的終身學(xué)習(xí)能力，因為它的技能可以通過向 API 平臺添加具有特定功能的新 API 來擴展，以處理新任務(wù)。
能夠提供更加可解釋的響應(yīng)，因為任務(wù)解決邏輯（即行動代碼）和 API 的結(jié)果都是可理解的。

TaskMatrix.AI 能完成什么任務(wù)？

TaskMatrix.AI 能完成的任務(wù)非常廣泛，小到文字、圖像信息的基本信息處理，大到控制機器人平臺、接入物聯(lián)網(wǎng)（IoT）等通用平臺任務(wù)，TaskMatrix 都能勝任。

圖像處理任務(wù)

TaskMatrix.AI 可以執(zhí)行圖像處理任務(wù)，并且能夠接受語言和圖像作為輸入。下圖展示了 TaskMatrix.AI 的相關(guān)版本 Visual ChatGPT，它不僅能夠理解人類意圖，還能處理語言和圖像輸入，以完成包括圖像生成、問題回答和編輯在內(nèi)的復(fù)雜視覺任務(wù)。

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

下圖展示了使用多個 API 協(xié)作生成高分辨率圖像的示例。在該例中，解決方案框架由 3 個 API 組成：圖像問答、圖像標(biāo)題以及圖像對象替換。

左側(cè)框線部分展示了解決方案框架如何協(xié)助將圖像擴展至 2048×4096 分辨率。通過迭代執(zhí)行框架中的預(yù)定義步驟，TaskMatrix.AI 可以生成任何所需尺寸的高分辨率圖像。

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

辦公自動化

TaskMatrix.AI 能夠通過語音指令理解并自動執(zhí)行計算機操作系統(tǒng)、專業(yè)軟件以及智能手機應(yīng)用的操作。利用 TaskMatrix.AI，可以快速上手復(fù)雜軟件。

此外，它還能幫助用戶在不進行搜索的情況下直接訪問所需功能。以下是一個 PowerPoint 自動化的實例，TaskMatrix.AI 能夠根據(jù)用戶指定的主題自動生成幻燈片，智能調(diào)整內(nèi)容布局，插入和優(yōu)化圖像，并應(yīng)用相應(yīng)的設(shè)計主題，從而顯著提升工作效率。

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

機器人和物聯(lián)網(wǎng)設(shè)備控制

TaskMatrix.AI 可以連接機器人和物聯(lián)網(wǎng)設(shè)備，實現(xiàn)對體力勞動和智能家居操作的自動化管理。通過集成先進的機器人技術(shù)，TaskMatrix.AI 能夠執(zhí)行一系列任務(wù)，如物體的拾取與放置以及對家庭物聯(lián)網(wǎng)設(shè)備的智能控制。

此外，該平臺還整合了多種流行的互聯(lián)網(wǎng)服務(wù)，包括但不限于日歷 API、天氣 API 和新聞 API，提供了更加豐富和便捷的用戶體驗。

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個 API

TaskMatrix.AI 的挑戰(zhàn)

盡管 TaskMatrix.AI 已經(jīng)在各種任務(wù)中證明了其強大的功能和通用性，但仍面臨以下幾個挑戰(zhàn)：

多模態(tài)會話基礎(chǔ)大模型：TaskMatrix.AI 需要一個能夠處理多種輸入（文本、圖像、視頻、音頻和代碼）的強大基礎(chǔ)大模型。這個模型需要能夠從上下文中學(xué)習(xí)，使用常識進行推理和計劃，并生成高質(zhì)量的代碼來完成任務(wù)。此外由于 TaskMatrix.AI 需要處理更多樣化的輸入模式，這要求確定一個最小模式集來訓(xùn)練 MCFM。
API 平臺：構(gòu)建和維護一個包含數(shù)百萬 API 的平臺需要解決文檔生成、API 質(zhì)量保證和 API 創(chuàng)建建議等挑戰(zhàn)。API 文檔的清晰性和 API 的質(zhì)量對于 TaskMatrix.AI 的成功至關(guān)重要。此外，平臺還需要根據(jù)用戶反饋指導(dǎo) API 開發(fā)者創(chuàng)建新的 API 來解決特定任務(wù)。
API 調(diào)用：在處理大量 API 時，TaskMatrix.AI 需要能夠合理選擇和推薦相關(guān)的 API 來完成任務(wù)。此外還涉及到在線規(guī)劃，即在無法立即生成解決方案時，與用戶交互并嘗試不同的解決方案。
安全和隱私：在 API 能夠訪問物理和數(shù)字世界時，確保模型忠實于用戶指令并保持?jǐn)?shù)據(jù)私密性是至關(guān)重要的。這要求在執(zhí)行操作前驗證模型的行為，并確保數(shù)據(jù)傳輸?shù)陌踩院蛿?shù)據(jù)訪問的授權(quán)。
個性化：TaskMatrix.AI 需要個性化策略來幫助開發(fā)者構(gòu)建定制的 AI 界面，并為用戶提供私人助理。這包括降低擴展成本和使用少量示例來學(xué)習(xí)用戶的偏好，以便生成符合用戶需求的解決方案。

關(guān)于 Intelligent Computing

Intelligent Computing 由之江實驗室和美國科學(xué)促進會（AAAS）共同創(chuàng)辦，是《科學(xué)》合作期刊框架中智能計算領(lǐng)域的第一本開放獲取（Open Access）國際期刊。期刊以「面向智能的計算、智能驅(qū)動的計算」以及「智能、數(shù)據(jù)與計算驅(qū)動的科學(xué)發(fā)現(xiàn)」為主題，主要刊載原創(chuàng)研究論文、綜述論文和觀點論文。