宇樹:開源機(jī)器人世界大模型!
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
一覺醒來,宇樹帶著最新開源模型來了!
這次開源的是一個(gè)世界模型-動(dòng)作架構(gòu),名叫UnifoLM-WMA-0。它的核心之處在于擁有一個(gè)世界模型能夠理解機(jī)器人和環(huán)境相互作用時(shí)的物理規(guī)律
咱先瞧瞧真機(jī)部署后的表現(xiàn)。
玩堆積木,穩(wěn)穩(wěn)當(dāng)當(dāng)。重點(diǎn)是,右上角小窗口呈現(xiàn)出世界模型對(duì)后續(xù)動(dòng)作視頻的預(yù)測(cè),能發(fā)現(xiàn)和實(shí)際操作情形十分吻合
兩只機(jī)械臂搭檔干活也可以:
像收納文具這類稍精細(xì)的活兒,都能輕松拿捏:
將相機(jī)放入包裝盒,世界模型的預(yù)測(cè)同樣和實(shí)際操作幾乎無差:
視頻鏈接:https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ
官方稱,UnifoLM-WMA-0屬于UnifoLM(Unitree機(jī)器人統(tǒng)一大模型)系列成果,是團(tuán)隊(duì)專為通用機(jī)器人學(xué)習(xí)量身打造的,能適配多種機(jī)器人本體
目前UnifoLM-WMA-0訓(xùn)練代碼、推理代碼、模型Checkpoints通通開源,GitHub迅速攬獲100+Star。
網(wǎng)友看后紛紛點(diǎn)贊。
如何訓(xùn)練的?
官方介紹了模型的訓(xùn)練策略,具體流程和設(shè)計(jì)思路可以拆解成這幾步來看。
首先,團(tuán)隊(duì)先拿Open-X數(shù)據(jù)集對(duì)視頻生成模型做了針對(duì)性微調(diào),核心目的就是讓模型原本的生成能力適配機(jī)器人的實(shí)際作業(yè)場(chǎng)景。
至于微調(diào)后模型在測(cè)試集上的實(shí)際生成效果,是這樣?jì)饍旱模?/p>
團(tuán)隊(duì)進(jìn)一步提出了基于世界模型打造的策略架構(gòu),即UnifoLM-WMA-0。
這個(gè)架構(gòu)里的世界模型不是單一模式運(yùn)行,而是支持兩種核心功能模式。
一種是決策模式,簡(jiǎn)單說就是能提前預(yù)測(cè)機(jī)器人和環(huán)境進(jìn)行物理交互時(shí)的關(guān)鍵信息,輔助策略更精準(zhǔn)地生成下一步動(dòng)作。
另一種是仿真模式,主要是根據(jù)機(jī)器人已經(jīng)做出的動(dòng)作,生成高度還原真實(shí)場(chǎng)景的環(huán)境反饋,相當(dāng)于給機(jī)器人模擬出一個(gè)逼真的交互環(huán)境。
針對(duì)這兩種模式,團(tuán)隊(duì)在下游任務(wù)數(shù)據(jù)集上分別做了后訓(xùn)練優(yōu)化。
以下是完整的系統(tǒng)架構(gòu)及工作流程:
視頻鏈接:https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ
團(tuán)隊(duì)用了宇樹科技公開的五個(gè)開源數(shù)據(jù)集,最終完成了全流程訓(xùn)練。
從測(cè)試結(jié)果來看,這個(gè)模型要是當(dāng)作仿真引擎來用,效果突出。
只要給它“當(dāng)前場(chǎng)景的圖像”,再加上一定數(shù)量的“機(jī)器人未來要做的動(dòng)作指令”,它就能實(shí)現(xiàn)可控的交互生成,生成的內(nèi)容能精準(zhǔn)匹配預(yù)期。
生成結(jié)果和原視頻的對(duì)比情況,大家可以通過下面的圖直觀感受:
面對(duì)長(zhǎng)程任務(wù)的持續(xù)交互生成也能應(yīng)對(duì),生成結(jié)果和原視頻的對(duì)比如下:
GitHub:https://github.com/unitreerobotics/unifolm-world-model-action/tree/main項(xiàng)目主頁:https://unigen-x.github.io/unifolm-world-model-action.github.io/