稚暉君人形機(jī)器人問(wèn)世:大模型加持,會(huì)自己換胳膊,要上生產(chǎn)線造車(2)
如何讓通用機(jī)器人實(shí)現(xiàn)低成本量產(chǎn),產(chǎn)生實(shí)際應(yīng)用價(jià)值?稚暉君表示,硬件只是前提條件之一,更重要的其實(shí)是背后的機(jī)器人大腦。
在當(dāng)前的具身智能領(lǐng)域,很多研究都在嘗試將大模型作為機(jī)器人的大腦,稚暉君也不例外,他也想用多模態(tài)大模型的能力賦能智元機(jī)器人的行為動(dòng)作編排。在智元機(jī)器人上個(gè)月發(fā)布的一個(gè)視頻中,我們已經(jīng)看到了這個(gè)想法的初步實(shí)現(xiàn),比如給出自然語(yǔ)言指令「把離你最近的木塊放到紫色的方塊右邊 3 厘米」,機(jī)器人就會(huì)按照指示行動(dòng)。
稚暉君把這個(gè)機(jī)器人背后的大模型叫做 WorkGPT,這是一個(gè)百億級(jí)參數(shù)的大模型。
在稚暉君看來(lái),語(yǔ)言和圖像大模型對(duì)于機(jī)器人領(lǐng)域應(yīng)用最大的價(jià)值在于兩個(gè)方面,一是龐大的先驗(yàn)知識(shí)庫(kù)和強(qiáng)大的通識(shí)理解能力,比如你不用告訴它什么是垃圾,它就能自己分辨出來(lái);二是復(fù)雜的語(yǔ)義多級(jí)推理能力,即所謂的「思維鏈」,這體現(xiàn)在它可以把復(fù)雜的指令分成一個(gè)一個(gè)的步驟。
「在大模型時(shí)代到來(lái)之前,機(jī)器人都是專用設(shè)備,我們需要針對(duì)性地對(duì)每一個(gè)任務(wù)進(jìn)行調(diào)試和部署。現(xiàn)在利用大模型的各種通識(shí)能力和舉一反三的推理能力,我們可以看到解決這些問(wèn)題,然后最終走向通用機(jī)器人的一道曙光。」稚暉君說(shuō)。
所以,在智元,他們打造了一個(gè)名為 EI-Brain 的具身智腦框架。在框架中,機(jī)器人系統(tǒng)被分為不同層級(jí),包括部署在云端的超腦,部署在端側(cè)的大腦、小腦以及腦干,分別對(duì)應(yīng)機(jī)器人任務(wù)不同級(jí)別的技能,包括技能級(jí)、指令級(jí)、伺服級(jí)等。具體來(lái)說(shuō),「大腦」負(fù)責(zé)跟我們?nèi)祟愐粯舆M(jìn)行抽象思考、多級(jí)推理,「小腦」負(fù)責(zé)運(yùn)動(dòng)控制方面的一些指令生成,「腦干」負(fù)責(zé)電機(jī)控制、伺服等硬件底層任務(wù)。
如果端側(cè)模型泛化能力不夠,系統(tǒng)可以去連接云端,實(shí)現(xiàn)更復(fù)雜的任務(wù)調(diào)度;另一方面,偏向于硬件底層的電機(jī)控制等工作都在本地甚至模塊中完成。
「這類似于自動(dòng)駕駛上 L1 到 L5 的不同分級(jí) —— 想要構(gòu)建全場(chǎng)景通用的智能機(jī)器人,存在不同的發(fā)展階段,」稚暉君表示?!肝覀兌x了一系列 Meta skill,在語(yǔ)言操作庫(kù)范圍限定的有限泛化的場(chǎng)景內(nèi),機(jī)器人可以實(shí)現(xiàn)自主的推理決策,然后完成端到端的任務(wù)編排。隨著能力庫(kù)不斷擴(kuò)充,機(jī)器人能夠勝任的任務(wù)空間也將指數(shù)級(jí)增長(zhǎng),最終可以實(shí)現(xiàn)全場(chǎng)景的覆蓋,切入千行百業(yè)。這體現(xiàn)了具身智能在交互和學(xué)習(xí)中進(jìn)化成長(zhǎng)的邏輯。」
為了讓這些層級(jí)起作用,智元不止在大模型方面展開(kāi)了探索,還迭代了其他方面的算法。比如,在運(yùn)動(dòng)控制算法方面,他們?cè)趲讉€(gè)月的時(shí)間里進(jìn)行了多次迭代,一直迭代到最近使用的非線性的 NMPC,以及目前正在開(kāi)發(fā)中的基于各種 learning (比如強(qiáng)化學(xué)習(xí))的方法。
同時(shí),他們也在搭建一個(gè)用于離線軌跡優(yōu)化的動(dòng)作庫(kù)平臺(tái)。
未來(lái),他們還將建立一個(gè)開(kāi)放平臺(tái),為開(kāi)發(fā)者提供持續(xù)的技術(shù)支持、資金獎(jiǎng)勵(lì)以及合作的機(jī)會(huì),而且鼓勵(lì)開(kāi)發(fā)者基于智元的機(jī)器人平臺(tái)去開(kāi)發(fā)各種創(chuàng)新的應(yīng)用功能和解決方案。
未來(lái),這個(gè)開(kāi)放平臺(tái)會(huì)包含整個(gè)機(jī)器人的開(kāi)發(fā)套件,包括 HDK、SDK、基于中間件 AGi ROS 的仿真平臺(tái),以及一些基礎(chǔ)的預(yù)訓(xùn)練大模型等等。同時(shí)他們也會(huì)去考慮推出一個(gè)低成本的教育版的硬件,供大家去進(jìn)行二次開(kāi)發(fā)。
未來(lái)要賣 20 萬(wàn)以內(nèi)
公司成立半年不到就發(fā)布第一款樣機(jī),還具備完整的體系,讓人們不由得感嘆現(xiàn)在 AI 領(lǐng)域創(chuàng)業(yè)公司速度之快。更重要的是,智元機(jī)器人并不是一味在追求前沿技術(shù)探索,而是「所有產(chǎn)品都在為商業(yè)落地服務(wù)」。
發(fā)布會(huì)上稚暉君表示,希望能把整機(jī)成本控制在 20 萬(wàn)元以內(nèi),使其具備落地的條件,并計(jì)劃在遠(yuǎn)征 A1 發(fā)布后,以此為基礎(chǔ)馬上推出第一代商用產(chǎn)品。
商業(yè)化也已經(jīng)有了相對(duì)具體的方向:基于當(dāng)前的人形機(jī)器人技術(shù),公司已在與國(guó)內(nèi)新能源頭部車企商討合作。希望在汽車制造總裝線、分裝線等場(chǎng)景上進(jìn)行商用化落地的嘗試,另外也在和 3C 制造的大廠研究合作。
智元機(jī)器人還計(jì)劃在未來(lái)幾年里把人形機(jī)器人推廣到更多領(lǐng)域。在消費(fèi)級(jí)市場(chǎng),人形機(jī)器人預(yù)計(jì)可適用的方式包含烹飪、家政、家庭護(hù)理、康復(fù)訓(xùn)練等。
智元機(jī)器人(AGIBOT)成立于 2023 年 2 月,目前融資已經(jīng)完成了四輪,投資方包括高領(lǐng)、百度等風(fēng)投機(jī)構(gòu)。說(shuō)到公司未來(lái)的發(fā)展,智元計(jì)劃逐步開(kāi)放開(kāi)發(fā)平臺(tái),在未來(lái)以每年一代的速度迭代新的樣機(jī)產(chǎn)品,并不斷進(jìn)行商用驗(yàn)證。
稚暉君也表示,為了支持計(jì)劃,公司即將開(kāi)啟秋招。
智元機(jī)器人投身的具身智能當(dāng)前是一個(gè)熱門領(lǐng)域。谷歌、斯坦福、英偉達(dá)等國(guó)際科技機(jī)構(gòu)都在這方面展開(kāi)了研究,并在近期展示了他們的具身智能機(jī)器人成果。今年 3 月份,一家名為 1X 的具身智能機(jī)器人公司還拿到了 OpenAI 的投資。隨著稚暉君等國(guó)內(nèi)外優(yōu)秀人才的快速進(jìn)場(chǎng),或許我們很快就能看到行業(yè)內(nèi)出現(xiàn)顛覆性的應(yīng)用。
「我的夢(mèng)想是有一天能夠真正造出科幻電影中的智能機(jī)器人,它不再是簡(jiǎn)單的機(jī)械裝置,而是擁有自主思考和學(xué)習(xí)能力的智能伙伴,能夠感知、理解我們的世界,并與我們深入溝通,」稚暉君說(shuō)道?!高h(yuǎn)征 A1 的發(fā)布,只是我們追求的起點(diǎn)。」
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。