CAAI具身智能專委會主任蔣樹強:世界模型是智能體進行決策的重要依據(jù)
“具身智能體的大腦里應(yīng)該是什么?”8月2日,“2025第三屆人工智能大模型技術(shù)高峰論壇”召開,CAAI(中國人工智能學(xué)會)具身智能專委會主任、中國科學(xué)院大學(xué)特聘教授、國家杰青獲得者蔣樹強圍繞智能體的“大腦”構(gòu)成、大模型在具身智能中的作用、世界模型與記憶等作核心報告。
蔣樹強指出,具身智能離不開三個關(guān)鍵詞:身體、環(huán)境、智能。它們之間存在深層次、復(fù)雜的關(guān)系,智能的實現(xiàn)依賴于身體的結(jié)構(gòu)、感知能力與環(huán)境的交互。
“具身智能可以理解為在身體上融入智能,本體和智能同樣重要。智能不僅存在于大腦,還與感知、認知、行為密切相關(guān)?!笔Y樹強表示,身體的結(jié)構(gòu)、形態(tài)、感知器與行為能力共同構(gòu)成智能的一部分,對智能的實現(xiàn)具有重要影響。例如,身高、肢體結(jié)構(gòu)、感官分布等決定了智能體如何感知和理解世界。
關(guān)于具身大模型,蔣樹強認為,具身大模型一般需融合視覺、語言和行為數(shù)據(jù)進行訓(xùn)練。訓(xùn)練具身大模型需要數(shù)據(jù)、算力、算法三者統(tǒng)一。數(shù)據(jù)不再只是文本或視頻,而是包含行為、物理參數(shù)、觸覺等多模態(tài)信息,復(fù)雜度更高。
“我覺得在特定場景下,只用一種類型的本體去訓(xùn)練,相對務(wù)實一點。但如果是各種各樣的機器形態(tài)一起訓(xùn)練,事情的復(fù)雜度會很高?!币虼?,蔣樹強表示,具身大模型在真實物理空間中的泛化能力、數(shù)據(jù)復(fù)雜度、傳感器差異等問題仍是挑戰(zhàn)。
蔣樹強還提到,世界模型是對真實世界的抽象表示,包括三維空間、動態(tài)變化、對象關(guān)系、記憶與知識等。其目標(biāo)是對環(huán)境狀態(tài)進行理解和預(yù)測,是智能體進行決策的重要依據(jù)。NIPS 2018的一篇文章指出,世界模型相當(dāng)于是推理和角色相關(guān)模型系統(tǒng)。然而世界模型和大模型的關(guān)系以及世界模型和三維空間的關(guān)系,都是值得去思考和挖掘的。
“我們現(xiàn)在有單臂的機器人,讓它去自動導(dǎo)航到一個地方,把桌面收拾干凈。實際上,這個是偏工程實現(xiàn)的,沒有太多理論的方法,我們主要做研究還是在導(dǎo)航這一塊?!笔Y樹強介紹,目前研究中大量使用模擬器生成數(shù)據(jù),但虛擬環(huán)境的物理參數(shù)可能不夠真實,如何將虛擬與真實環(huán)境對齊仍是難題。
轉(zhuǎn)載請注明來自山西智睿祥新能源有限公司,本文標(biāo)題:《CAAI具身智能專委會主任蔣樹強:世界模型是智能體進行決策的重要依據(jù)》
