清遠(yuǎn)2025-09-17 04:30:143766

宇樹：開源機(jī)器人世界大模型！

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

一覺醒來，宇樹帶著最新開源模型來了！

這次開源的是一個(gè)世界模型-動(dòng)作架構(gòu)，名叫UnifoLM-WMA-0。它的核心之處在于擁有一個(gè)世界模型能夠理解機(jī)器人和環(huán)境相互作用時(shí)的物理規(guī)律

咱先瞧瞧真機(jī)部署后的表現(xiàn)。

玩堆積木，穩(wěn)穩(wěn)當(dāng)當(dāng)。重點(diǎn)是，右上角小窗口呈現(xiàn)出世界模型對(duì)后續(xù)動(dòng)作視頻的預(yù)測(cè)，能發(fā)現(xiàn)和實(shí)際操作情形十分吻合

兩只機(jī)械臂搭檔干活也可以：

像收納文具這類稍精細(xì)的活兒，都能輕松拿捏：

將相機(jī)放入包裝盒，世界模型的預(yù)測(cè)同樣和實(shí)際操作幾乎無差：

視頻鏈接：https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ

官方稱，UnifoLM-WMA-0屬于UnifoLM（Unitree機(jī)器人統(tǒng)一大模型）系列成果，是團(tuán)隊(duì)專為通用機(jī)器人學(xué)習(xí)量身打造的，能適配多種機(jī)器人本體

目前UnifoLM-WMA-0訓(xùn)練代碼、推理代碼、模型Checkpoints通通開源，GitHub迅速攬獲100+Star。

網(wǎng)友看后紛紛點(diǎn)贊。

如何訓(xùn)練的？

官方介紹了模型的訓(xùn)練策略，具體流程和設(shè)計(jì)思路可以拆解成這幾步來看。

首先，團(tuán)隊(duì)先拿Open-X數(shù)據(jù)集對(duì)視頻生成模型做了針對(duì)性微調(diào)，核心目的就是讓模型原本的生成能力適配機(jī)器人的實(shí)際作業(yè)場(chǎng)景。

至于微調(diào)后模型在測(cè)試集上的實(shí)際生成效果，是這樣?jì)饍旱模?/p>

團(tuán)隊(duì)進(jìn)一步提出了基于世界模型打造的策略架構(gòu)，即UnifoLM-WMA-0。

這個(gè)架構(gòu)里的世界模型不是單一模式運(yùn)行，而是支持兩種核心功能模式。

一種是決策模式，簡(jiǎn)單說就是能提前預(yù)測(cè)機(jī)器人和環(huán)境進(jìn)行物理交互時(shí)的關(guān)鍵信息，輔助策略更精準(zhǔn)地生成下一步動(dòng)作。

另一種是仿真模式，主要是根據(jù)機(jī)器人已經(jīng)做出的動(dòng)作，生成高度還原真實(shí)場(chǎng)景的環(huán)境反饋，相當(dāng)于給機(jī)器人模擬出一個(gè)逼真的交互環(huán)境。

針對(duì)這兩種模式，團(tuán)隊(duì)在下游任務(wù)數(shù)據(jù)集上分別做了后訓(xùn)練優(yōu)化。

以下是完整的系統(tǒng)架構(gòu)及工作流程：

視頻鏈接：https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ

團(tuán)隊(duì)用了宇樹科技公開的五個(gè)開源數(shù)據(jù)集，最終完成了全流程訓(xùn)練。

從測(cè)試結(jié)果來看，這個(gè)模型要是當(dāng)作仿真引擎來用，效果突出。

只要給它“當(dāng)前場(chǎng)景的圖像”，再加上一定數(shù)量的“機(jī)器人未來要做的動(dòng)作指令”，它就能實(shí)現(xiàn)可控的交互生成，生成的內(nèi)容能精準(zhǔn)匹配預(yù)期。

生成結(jié)果和原視頻的對(duì)比情況，大家可以通過下面的圖直觀感受：

面對(duì)長(zhǎng)程任務(wù)的持續(xù)交互生成也能應(yīng)對(duì)，生成結(jié)果和原視頻的對(duì)比如下：

GitHub：https://github.com/unitreerobotics/unifolm-world-model-action/tree/main項(xiàng)目主頁：https://unigen-x.github.io/unifolm-world-model-action.github.io/

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss