百度CTO王海峰:飛槳及文心大模型構(gòu)建智能時代新基礎(chǔ)設(shè)施,助力AI普惠
作為AI工業(yè)大生產(chǎn)的基礎(chǔ)平臺,深度學(xué)習(xí)平臺下接芯片,上承應(yīng)用,被視為“智能時代的操作系統(tǒng)”。作為我國首個自主研發(fā)的產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺,飛槳致力于解決深度學(xué)習(xí)技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化中的諸多難題,降低AI開發(fā)和應(yīng)用的門檻,助力AI普惠。
6月9日晚,北京信息科學(xué)與技術(shù)國家研究中心系列交叉論壇(第45期)線上舉行,論壇由中國工程院院士、清華大學(xué)信息學(xué)院院長、信息國家研究中心主任戴瓊海主持,百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任王海峰博士作了以“飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開發(fā)平臺”為主題的報告。
飛槳多年來堅持研發(fā)核心技術(shù)、打造功能豐富的平臺、建設(shè)兼容并包的生態(tài)等,已凝聚477萬開發(fā)者,服務(wù)18萬企事業(yè)單位,得到社會各界廣泛認(rèn)可。王海峰在報告中闡釋了深度學(xué)習(xí)平臺對人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化的意義,分享了飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺最新進(jìn)展,包括技術(shù)與平臺的創(chuàng)新成果、文心產(chǎn)業(yè)級知識增強大模型、飛槳生態(tài)建設(shè),以及飛槳平臺在各行各業(yè)的應(yīng)用等,并與院士專家共同探討了中國深度學(xué)習(xí)平臺在產(chǎn)業(yè)、科研、教育中的落地實踐。王海峰表示,基于飛槳平臺,AI開發(fā)和應(yīng)用門檻不斷降低,人人都可以成為智能應(yīng)用的開發(fā)者。飛槳平臺及文心大模型正在賦能千行百業(yè),惠及千家萬戶。
以下根據(jù)王海峰博士報告整理:
報告的題目是《飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺》,分為五個部分:引言;飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺;飛槳模型庫中的文心大模型;飛槳生態(tài);飛槳助力AI普惠。
深度學(xué)習(xí)平臺相當(dāng)于智能時代的操作系統(tǒng)
人工智能已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。人類歷史上過去200多年已經(jīng)歷三次工業(yè)革命,每一次工業(yè)革命的核心驅(qū)動科技,無論是機械技術(shù)、電氣技術(shù)還是信息技術(shù),都具有很強的通用性,而且進(jìn)入工業(yè)大生產(chǎn)階段以后,也體現(xiàn)出標(biāo)準(zhǔn)化、自動化和模塊化的工業(yè)大生產(chǎn)特征,可以應(yīng)用于各行各業(yè),為人類帶來了非常大的產(chǎn)業(yè)變革。
以深度學(xué)習(xí)為關(guān)鍵核心技術(shù)的新一代人工智能如同前三次工業(yè)革命的核心驅(qū)動科技一樣,已經(jīng)具備了非常強的通用性,并呈現(xiàn)出標(biāo)準(zhǔn)化、自動化、模塊化的工業(yè)大生產(chǎn)特征。
深度學(xué)習(xí)技術(shù)研發(fā)周期很長,應(yīng)用落地的流程也非常復(fù)雜,例如,在開發(fā)階段,模型的實現(xiàn)復(fù)雜,要同時兼顧靈活和高效難度很大;模型訓(xùn)練階段,隨著模型越來越大,效率如何提升、模型結(jié)構(gòu)如何與硬件匹配降低訓(xùn)練成本等;推理部署階段,應(yīng)用環(huán)境復(fù)雜多樣,如何高效適配多端、多平臺、多硬件,如何實現(xiàn)高性能推理,等等。深度學(xué)習(xí)技術(shù)的發(fā)展和大規(guī)模產(chǎn)業(yè)化面臨諸多難題。
典型的深度學(xué)習(xí)平臺具備基礎(chǔ)的深度學(xué)習(xí)框架,包括開發(fā)、訓(xùn)練、推理等等,同時也包括各種模型庫和輔助工具,形成一個完整的平臺,能夠有效解決上述問題。深度學(xué)習(xí)平臺下接芯片,上承應(yīng)用,相當(dāng)于智能時代的“操作系統(tǒng)”。
飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺,大幅降低應(yīng)用門檻
飛槳平臺是我國首個自主研發(fā)、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,具備顯著的標(biāo)準(zhǔn)化、自動化和模塊化特征,是人工智能工業(yè)大生產(chǎn)的基礎(chǔ)平臺,促進(jìn)我國人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)應(yīng)用。
飛槳產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺集核心框架、基礎(chǔ)模型庫、開發(fā)套件和工具組件于一體。核心框架包括既有動態(tài)圖,也有靜態(tài)圖的便捷開發(fā)、具備大規(guī)模分布式訓(xùn)練技術(shù)及產(chǎn)業(yè)級數(shù)據(jù)處理等訓(xùn)練,以及端邊云深度優(yōu)化的高性能推理;基礎(chǔ)模型庫包含經(jīng)典的自然語言PaddleNLP、計算機視覺PaddleCV、語音技術(shù)PaddleSpeech和推薦技術(shù)PaddleRec等,也包含文心大模型;端到端開發(fā)套件,如語義理解、圖像分類、目標(biāo)檢測等開發(fā)套件,以及包含強化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),和很受關(guān)注的科學(xué)計算、量子機器學(xué)習(xí)、生物計算的工具組件,同時也有預(yù)訓(xùn)練模型應(yīng)用工具、全流程開發(fā)工具、可視化分析工具以及安全隱私工具、資源管理與調(diào)度等等,能夠讓科技工作者和開發(fā)者簡潔快速地進(jìn)行技術(shù)創(chuàng)新和應(yīng)用實踐。此外,飛槳也建設(shè)了AI Studio學(xué)習(xí)與實訓(xùn)社區(qū),支撐AI人才的學(xué)習(xí)和實踐訓(xùn)練。
飛槳平臺從以下四個方面持續(xù)積累和突破,成為大幅降低AI應(yīng)用門檻的全棧平臺,包括開發(fā)便捷的深度學(xué)習(xí)框架、超大規(guī)模訓(xùn)練技術(shù)、多端多平臺高性能推理和產(chǎn)業(yè)級模型庫。
在開發(fā)環(huán)節(jié),需兼顧靈活和高效。動態(tài)圖更靈活,靜態(tài)圖更高效。飛槳實現(xiàn)了動靜統(tǒng)一的開發(fā)體驗,用動態(tài)圖進(jìn)行開發(fā),自動轉(zhuǎn)成靜態(tài)圖部署。利用飛槳簡潔易用的API,10行代碼即可實現(xiàn)模型訓(xùn)練。動靜統(tǒng)一、高低融合的API體系可以大幅降低模型的開發(fā)成本。
在核心的訓(xùn)練環(huán)節(jié),飛槳研制了通用異構(gòu)參數(shù)服務(wù)器技術(shù),可以進(jìn)行高效混布異構(gòu)計算、存儲、通信,突破單一硬件制約;以及端到端自適應(yīng)分布式訓(xùn)練技術(shù),能夠自動感知硬件環(huán)境、實行多維混合的并行策略,以及做異步流水線的執(zhí)行等等,支持大規(guī)模高效訓(xùn)練,降低訓(xùn)練成本。
在推理部署環(huán)節(jié),飛槳研制了訓(xùn)推一體工具鏈,支持從模型訓(xùn)練到模型優(yōu)化,再到推理部署的全流程效率提升。在模型壓縮中,實現(xiàn)了自動化壓縮技術(shù),在精度和性能無損情況下,開發(fā)代碼量大幅降低。對于端、邊、云全場景的推理引擎,通過數(shù)據(jù)處理加速、計算圖優(yōu)化、執(zhí)行調(diào)度開銷降低等方式,深度優(yōu)化性能,大幅降低推理時延,實現(xiàn)了多端多平臺的高性能推理。
壓縮完成之后,硬件會統(tǒng)一接入,全面降低硬件適配成本。飛槳硬件適配統(tǒng)一方案,最底層是芯片,然后是飛槳框架硬件適配層,可在算子、子圖、整圖、深度學(xué)習(xí)編譯器、神經(jīng)網(wǎng)絡(luò)交換格式等進(jìn)行不同的適配。飛槳已經(jīng)適配了國內(nèi)外的各類主流芯片/IP超過30種。
面對AI模型開發(fā)、訓(xùn)練和推理部署的復(fù)雜流程,飛槳提供訓(xùn)推一體導(dǎo)航圖,可以讓開發(fā)者基于導(dǎo)航圖,找到最適合自己應(yīng)用的訓(xùn)練模式、推理部署的工具等等,進(jìn)而可以非常便捷快速地開發(fā)自己的應(yīng)用。
產(chǎn)業(yè)級模型庫方面,如今飛槳開源的模型數(shù)量已超過500個,涵蓋不同層面,既有基礎(chǔ)的自然語言處理、計算機視覺、推薦、語音等,也包括各種工具組件,可以讓開發(fā)者便捷調(diào)用。此外,飛槳還提供了產(chǎn)業(yè)模型的選型工具,為應(yīng)用場景自動選擇最佳模型,更好地匹配產(chǎn)業(yè)落地的訴求,提供全流程的選型建議以及配套范例的教程。
飛槳模型庫:知識增強的產(chǎn)業(yè)級文心大模型
文心大模型是飛槳模型庫的重要組成部分,包含基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型等產(chǎn)業(yè)級知識增強大模型體系,以及工具平臺、API和創(chuàng)意社區(qū)助力大模型的高效應(yīng)用。
文心知識增強大模型從海量數(shù)據(jù)和大規(guī)模知識中融合學(xué)習(xí),效率更高,效果更好,理解和生成能力顯著提升。
2022年高考期間,文心大模型加持的AI數(shù)字人度曉曉挑戰(zhàn)高考作文,圍繞“本手、妙手、俗手”, 秒級成文,寫出了題為《苦練本手,方能妙手隨成》的作文。根據(jù)歷年情況,度曉曉的作文得分超過75%的高考考生。
文心知識增強大模型在國際排行榜SuperGLUE上奪冠,以相對更小的參數(shù)規(guī)模取得更好的效果。傳統(tǒng)方法針對不同的自然語言處理任務(wù),比如信息抽取、情感分析、問答等等,需要訓(xùn)練不同的模型,是一種分散化的模型開發(fā)模式;知識增強大模型可以同時實現(xiàn)多任務(wù)的訓(xùn)練,是集約化的模型開發(fā)模式。在基礎(chǔ)大模型的基礎(chǔ)上,面向不同任務(wù)、不同場景做精調(diào),可以得到非常好的效果。因此,知識增強大模型具有很好的通用性和泛化性,配置相應(yīng)的工具平臺,可以大幅降低AI開發(fā)與應(yīng)用門檻。
在文心的基礎(chǔ)大模型中,鵬城-百度·文心是百度和鵬城實驗室聯(lián)合研發(fā)的全球首個知識增強千億大模型,在60多項任務(wù)取得了最好效果。
任務(wù)知識增強大模型ERNIE 3.0 Zeus,從海量文本數(shù)據(jù)、大規(guī)模知識圖譜和不同任務(wù)中融合學(xué)習(xí),針對不同的任務(wù)做知識增強,效果大幅提升。
計算機視覺領(lǐng)域,多任務(wù)統(tǒng)一的視覺大模型,在分類、檢索、分割、檢測等20多項視覺任務(wù)上取得了很好的效果。
知識增強的跨模態(tài)大模型,實現(xiàn)了跨模態(tài)語義的統(tǒng)一表示與關(guān)聯(lián),進(jìn)行跨模態(tài)語義的理解與生成,如ERNIE-VilG能夠進(jìn)行圖文雙向生成,ERNIE-GeoL融合“地理-語言”關(guān)聯(lián)知識,大幅提升地理位置相關(guān)任務(wù)效果等。
除了跨模態(tài),還有跨領(lǐng)域大模型,如生物計算大模型,化合物表征學(xué)習(xí)HELIX-GEM,是首個幾何構(gòu)象增強的化合物表征模型,在14項****物相關(guān)的任務(wù)上取得良好效果;蛋白質(zhì)結(jié)構(gòu)分析 HELIX-Fold模型,全面適配國產(chǎn)軟硬件環(huán)境,在國產(chǎn)硬件上訓(xùn)練千萬級別蛋白效率更高。
文心大模型也積極與產(chǎn)業(yè)合作,促進(jìn)大模型在行業(yè)中的應(yīng)用。在能源電力行業(yè),百度和國網(wǎng)聯(lián)合研發(fā)了國網(wǎng)-百度·文心大模型?;谕ㄓ梦男拇竽P?,在海量數(shù)據(jù)中挖掘電力行業(yè)數(shù)據(jù),與國網(wǎng)專家們一起,引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識。訓(xùn)練中,結(jié)合雙方在預(yù)訓(xùn)練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗,設(shè)計電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預(yù)訓(xùn)練任務(wù),讓文心大模型深入學(xué)習(xí)電力專業(yè)知識,在國網(wǎng)場景任務(wù)應(yīng)用效果提升。相似的思路,在金融領(lǐng)域,百度和浦發(fā)也聯(lián)合研發(fā)了浦發(fā)-百度·文心大模型,效果顯著。
協(xié)同共建生態(tài),飛槳平臺已凝聚477萬開發(fā)者
飛槳多年來堅持研發(fā)核心技術(shù)、打造功能豐富的平臺、建設(shè)兼容并包的生態(tài)等,已凝聚477萬開發(fā)者,服務(wù)了18萬企事業(yè)單位,創(chuàng)建了56萬個模型,得到社會各界廣泛認(rèn)可。
人才培養(yǎng)方面,飛槳與高校、科研院所等合作,助力復(fù)合型的AI人才培養(yǎng)。飛槳已經(jīng)為700多所高校培養(yǎng)了3000多名教師,合作出版了系列基于產(chǎn)業(yè)實踐的AI教輔書,組織國內(nèi)外系列AI技術(shù)競賽等。
硬件生態(tài)方面,飛槳與硬件伙伴的合作不斷深化。2020年,與硬件伙伴聯(lián)合發(fā)起飛槳硬件生態(tài)圈,促進(jìn)AI產(chǎn)業(yè)鏈的適配升級;2021年,飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化,適配飛槳的芯片/IP超過30種;2022年,合作進(jìn)一步深化,全面共創(chuàng),協(xié)同推出廠商版飛槳框架、建設(shè)模型庫、開發(fā)課程,更好地服務(wù)開發(fā)者,促進(jìn)生態(tài)繁榮共贏。
飛槳及文心大模型賦能千行百業(yè),助力AI普惠
飛槳平臺及文心大模型的創(chuàng)新發(fā)展,不斷降低AI開發(fā)和應(yīng)用的門檻,越來越多的人都可以成為智能應(yīng)用的開發(fā)者。如10歲小學(xué)生開發(fā)了檢測水果新鮮度的應(yīng)用;鐵路鉗工開發(fā)了火車車身字符及標(biāo)識檢測的應(yīng)用;大學(xué)老師開發(fā)了花樣滑冰的人體動作分析的應(yīng)用等等。
基于飛槳平臺,人工智能技術(shù)已在制造、城市、能源、金融、媒體等行業(yè)廣泛應(yīng)用,并催生了AI訓(xùn)練師、5G云代駕等新業(yè)態(tài)、新模式。
飛槳平臺及文心大模型正在賦能千行百業(yè),惠及千家萬戶。
轉(zhuǎn)自《新聞助手》
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。