發(fā)布時間:2025-09-17 來源:登高望遠網(wǎng)作者:教練席有只dog
新華社北京9月15日電 9月15日,《新華每日電訊》發(fā)表題為《數(shù)據(jù):99%+1%,能實現(xiàn)“從0到10000”——銀河通用王鶴:讓機器人甩掉遙控器,“睜開眼”干活》的報道。
北京銀河通用機器人有限公司創(chuàng)始人兼首席技術(shù)官王鶴。受訪者供圖
8月,全球首個城市級常態(tài)化運營的人形機器人示范區(qū)落地北京。來自北京銀河通用機器人有限公司的“銀河太空艙”——由機器人經(jīng)營的無人超市開張,具身智能真正走進大眾日常生活。作為專注于研發(fā)人形機器人硬件和具身智能大模型的機器人企業(yè),銀河通用率先實現(xiàn)機器人在工業(yè)、零售等場景批量化落地,其自研機器人Galbot在機器人格斗賽等賽事上也斬獲佳績。
每次有機器人火上熱搜,評論區(qū)都有不少人強調(diào)一個現(xiàn)實:目前,絕大多數(shù)機器人離開人工和遙控,還是會“原形畢露”。
而銀河通用的機器人Galbot卻有所不同:它不僅無需“遙控”,還能自主干活。
眼下,具身智能的最大困境,既非硬件,也非模型,而在于數(shù)據(jù)。不論是讓機器人從動作智能轉(zhuǎn)向認知智能,還是提升機器人的泛化性、魯棒性(指系統(tǒng)、算法或模型面對外部干擾、輸入異?;騼?nèi)部參數(shù)變化時維持穩(wěn)定運行并輸出預期結(jié)果的能力),關(guān)鍵在于數(shù)據(jù)的豐富性和準確性。
而一個讓難度再進階的考驗是,想要真正實現(xiàn)商業(yè)閉環(huán),還要權(quán)衡數(shù)據(jù)獲取的質(zhì)量、成本與效率。
記者:機器人發(fā)展的優(yōu)先級,應側(cè)重于能力的展示,還是產(chǎn)業(yè)的切實賦能?在發(fā)展方向上,業(yè)內(nèi)分歧多還是共識多?
王鶴:今年以來,機器人企業(yè)在兩種能力的選擇上逐步有了區(qū)分度。一類以宇樹科技為代表,其機器人擅長運動、舞蹈、拳擊,特點是以腿足乃至全身控制為主,能展現(xiàn)出精彩的運動能力。還有一類是以銀河通用為代表的“干活派”,依靠視覺反饋閉環(huán),展現(xiàn)出在實際場景中干活的能力?!案苫钆伞崩?,大致還可分為視覺算法+軌跡生成,與端到端VLA(即視覺-運動-動作一體化生成)兩種技術(shù)路徑。
其實,不少人形機器人跳舞、跑步,并沒有用到視覺傳感器。今年4月在北京舉行的全球首個機器人半程馬拉松上,不少觀眾注意到部分機器人“運動員”的不遠處,有人用遙控器遙控機器人跑步、轉(zhuǎn)彎或加速,實際上機器人是“閉著眼”跑的。這樣的技術(shù)現(xiàn)狀跟機器人“生產(chǎn)力時代”還不是一回事,畢竟,沒有活是閉著眼睛干的。
今年,具身智能的場景落地在加快。以工業(yè)場景為例,銀河通用的機器人已實現(xiàn)流水線搬運、分揀等環(huán)節(jié)的規(guī)?;瘧谩A闶蹐鼍爸?,銀河通用在北京海淀已成功落地10多家配備人形機器人的智慧藥房,并計劃年內(nèi)在全國開設(shè)100家。此外,銀河通用的機器人已開始售賣零食、咖啡等商品。
記者:機器人完成酷炫的、令人眼前一亮的動作,許多情況下還是預編排的動作序列、人工遙控與視頻剪輯共同作用的結(jié)果。為什么會出現(xiàn)“demo(演示視頻)先行、落地乏力”?
王鶴:秀一段5分鐘的demo,對機器人的可靠性、穩(wěn)定性要求并不高,不能證明它是能24小時工作的高可靠性產(chǎn)品。
demo與產(chǎn)品的差距主要來自兩方面。一是泛化性不足,視頻片段展示的多為精心布置的受控環(huán)境,如果換個物體、環(huán)境甚至是光線,機器人就難以工作了,這顯然還不是成熟的產(chǎn)品。二是硬件不可靠,如果機器人用上一會兒就需要人來維修,也顯然還不能大規(guī)模投入使用。機器人的核心功能是替人去勞動,而不是成為花瓶一樣的擺設(shè)。
記者:要想“拿掉機器人的遙控器”,核心在于什么?
王鶴:在于能夠自主執(zhí)行的模型“大腦”,且能實現(xiàn)跨場景泛化。今年初,銀河通用以10億級合成大數(shù)據(jù),端到端訓練了一個VLA大模型,以視覺作為輸入,模型實時輸出當前機器人末端執(zhí)行器應當如何移動,是一個閉環(huán)反饋模型,能夠?qū)崿F(xiàn)對不同場景中移動物體的抓取。6月,又推出了端到端導航大模型,使機器人能夠擁有“聽—看—懂—走”閉環(huán)運動能力。
另一個核心在于硬件的性能要夠用、好用,精度要盡可能高。
記者:機器人實現(xiàn)泛化的關(guān)鍵在于什么?
王鶴:數(shù)據(jù)??梢哉f數(shù)據(jù)決定了機器人能力的下限。
我的觀點是,現(xiàn)階段合成數(shù)據(jù)可用于解決從0到1的問題,利用真實遙操采集的數(shù)據(jù)可解決從1到100的問題,從100到10000的問題則交由視頻數(shù)據(jù)處理,讓機器進行學習。具身智能所依靠的數(shù)據(jù),99%可借助高質(zhì)量的合成數(shù)據(jù)完成,只有在合成數(shù)據(jù)無法處理的情況下,才需要有針對性地采集使用1%的真實數(shù)據(jù)。
端到端具身大模型面臨的困難,與自動駕駛所運用的端到端大模型有所不同。自動駕駛所依靠的數(shù)據(jù)來源廣泛、數(shù)量龐大,且采集成本為負。目前,頭部人形機器人廠商量產(chǎn)的機器人僅為千臺級別,難以達到萬臺規(guī)模。在現(xiàn)實中,讓所有機器人都投入不同場景自主工作,以供真人采集上億條數(shù)據(jù),并不具有現(xiàn)實可行性。
更為切實可行的解決方案是,先利用合成數(shù)據(jù)完善抓取、移動、放置等功能,助力具身智能開拓市場,先完成那99%。而生成高質(zhì)量合成數(shù)據(jù)也存在一定門檻,需具備出色的圖形學、物理仿真、物理渲染、自動動作合成管線等一系列完整的基礎(chǔ)設(shè)施,還需要長期的核心技術(shù)積累。
記者:什么能稱為高質(zhì)量的數(shù)據(jù)?該如何評價采集或仿真獲得的數(shù)據(jù)夠不夠好、夠不夠用?
王鶴:數(shù)據(jù)的“質(zhì)”比“量”重要。如果數(shù)據(jù)千篇一律、同質(zhì)性太高,那么它的價值就非常有限。高質(zhì)量數(shù)據(jù)意味著它是多元的,能夠體現(xiàn)柔性物體的操作,具備場景的泛化性。從機器學習的角度講,訓練數(shù)據(jù)能覆蓋盡可能多元的測試數(shù)據(jù)的分布,機器人的學習就越高效,學成之后,它就能在陌生環(huán)境抓取一個此前沒見過的東西。
記者:現(xiàn)有的模型架構(gòu)夠用嗎?
王鶴:不能說完全成熟,但是夠用了。模型方面一直有進展,但起決定性作用的是數(shù)據(jù)。數(shù)據(jù)足夠的情況下,好的模型能學得更好,但數(shù)據(jù)不夠時,好的模型也會變成“差生”。好比教一個3歲小孩學圍棋,一上來就教高端技巧并不現(xiàn)實,得先讓他知道什么是黑子白子。
記者:機器人商業(yè)落地,難在哪里?技術(shù)突破速度與場景適配深度之間的平衡,如何把握?
王鶴:可批量復制的場景落地,將是具身智能的“生死分水嶺”。在我看來,未來3年左右,能找到可以擊穿的場景就能留在牌桌,找不到的將會出局。未來1年,如果能實現(xiàn)千臺到萬臺的機器人批量交付,行業(yè)價值才算得到驗證,具身智能的泡沫也將被剝離。
事實上,如果能把抓取、移動、放置這類“簡單”操作的泛化性問題徹底解決,已堪稱具身智能發(fā)展過程中的一個里程碑。這一技術(shù)的成熟足夠打開數(shù)千億元的市場,使機器人在零售、前置倉、車廠分揀等多個場景中幫助人類完成繁重勞動。
記者:普林斯頓大學一門哲學課花了一整個學期討論一個問題——先有語言,還是先有思維。這個討論是關(guān)于人的,但從這個視角看,機器人的語言形成、認知形成,是否與人類相仿?大語言模型、推理模型的發(fā)展,如何影響機器人的進化?
王鶴:不是所有的思維活動都基于語言。拿猩猩舉例,猩猩學習某個技能,靠的是另一只猩猩在它面前演示一遍,也就是說,技能是靠具身的學習來傳播的。即使語言交流不發(fā)達,猩猩也一樣具有視覺思維、空間思維、情感思維。
人類的思維是一個復雜的認知過程,人類的語言和思維在互動中塑造。語言能夠使思維在更大范圍內(nèi)傳播,思維涉及心智層面對信息的處理,包括概念形成、問題解決、決策制定與反思等,可以影響語言的演化與延伸。所以說人類智能里,思維能力、語言能力、操作能力都是使人類擁有地球上迄今為止最強智能的重要因素。
記者:ChatGPT橫空出世時,有人說“語言即智能”;人形機器人熱潮來襲,又有人說“身體即智能”。也許在今天,只以人的維度評價智能已經(jīng)不夠了。你如何定義“智能”?人的智能、機器人的智能是否有一個交匯點?
王鶴:智能就是解決問題的能力。無論對于人類、其他動物還是機器人,遇到問題后能給出解決辦法的能力,就是智能。面對一瓶飲料,人類利用語言溝通請有工具的人打開它,動物徒手打開它,機器人給出一個恰好的力來打開它——調(diào)用能力的方式不同,但這都是智能。