2025年,對(duì)人形機(jī)器人和具身智能賽道的創(chuàng)業(yè)者而言,都是特殊的一年。在產(chǎn)業(yè)端,不斷迭代新的產(chǎn)品;在一級(jí)市場(chǎng),這些初創(chuàng)公司成為投資者青睞的標(biāo)的公司。


7月10日,在2025年新京報(bào)貝殼財(cái)經(jīng)年會(huì)建設(shè)開(kāi)源之都:智AI未來(lái),生態(tài)共澎湃主論壇上,北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人及首席技術(shù)官、智源學(xué)者王鶴博士出席并發(fā)表題為《合成數(shù)據(jù)賦能的具身大模型開(kāi)啟工商業(yè)場(chǎng)景規(guī)?;涞亍返闹髦佳葜v。



人形機(jī)器人并不是一個(gè)新鮮的事物,從早稻田大學(xué)發(fā)布的全球第一個(gè)能自主行動(dòng)的人形機(jī)器人WABOT-1再到波士頓動(dòng)力早期的Atlas機(jī)器人,機(jī)器人一直存在,卻并不智能。2022年大模型在全球范圍內(nèi)掀起的熱潮,讓無(wú)數(shù)研究者看到了新的方向,最早將人工智能和機(jī)器人研究相結(jié)合,重新定義機(jī)器人的能力邊界,王鶴正是其中之一。


王鶴認(rèn)為,一些通用大模型對(duì)于機(jī)器人而言并不具備可操作性,因此多模態(tài)模型的下一步發(fā)展方向就是將機(jī)器人的動(dòng)作作為輸出模態(tài),這就是當(dāng)下具身智能與大模型融合的一個(gè)新趨勢(shì),即VLA(Vision-Language-Action)大模型,通俗理解就是能夠讓機(jī)器人自主理解指令并依靠手眼腦身協(xié)調(diào)來(lái)執(zhí)行任務(wù)。


從2021年斯坦福大學(xué)博士畢業(yè)到回國(guó)加入北大任教,創(chuàng)立并領(lǐng)導(dǎo)了北大具身感知與交互實(shí)驗(yàn)室,王鶴一直在探索機(jī)器人視覺(jué)和操控的可泛化性?!熬呱碇悄苁悄壳罢嬲苿?dòng)制造業(yè)、生產(chǎn)服務(wù)業(yè)以及創(chuàng)造新質(zhì)生產(chǎn)力的一個(gè)關(guān)鍵領(lǐng)域?!蓖斛Q說(shuō)。


但這個(gè)領(lǐng)域與傳統(tǒng)的制造業(yè)并不完全相同,人形機(jī)器人要能“干活”,離不開(kāi)一個(gè)會(huì)思考的大腦,只有讓機(jī)器人本體承載具身大模型,機(jī)器人才會(huì)擁有自主決策的能力。王鶴坦言,“結(jié)合目前產(chǎn)業(yè)發(fā)展現(xiàn)狀來(lái)看,數(shù)據(jù)短缺是制約人形機(jī)器人大規(guī)模落地應(yīng)用的根本原因。我們需要的可能是上百億的數(shù)據(jù),機(jī)器人才能達(dá)到泛化的能力,但今天公開(kāi)的數(shù)據(jù)集僅有百萬(wàn)條這個(gè)量級(jí),中間差了好幾個(gè)數(shù)量級(jí),這是目前具身智能領(lǐng)域發(fā)展最大的瓶頸。”王鶴說(shuō)。


投資界和產(chǎn)業(yè)界喜歡將具身智能的發(fā)展史與自動(dòng)駕駛的發(fā)展史進(jìn)行類(lèi)比,但王鶴指出目前人形機(jī)器人和新能源汽車(chē)行業(yè)相比,仍有兩個(gè)挑戰(zhàn):一是汽車(chē)的出貨量遠(yuǎn)高于人形機(jī)器人企業(yè),即便是像特斯拉等頭部人形機(jī)器人企業(yè)的出貨數(shù)量和頭部車(chē)企幾百萬(wàn)的出貨量仍有很大的差距;二是汽車(chē)售出后也能夠讓車(chē)主駕駛自動(dòng)回傳數(shù)據(jù),現(xiàn)階段人形機(jī)器人還不能像買(mǎi)車(chē)一樣馬上產(chǎn)生使用價(jià)值。也就是說(shuō),具身智能領(lǐng)域面臨的挑戰(zhàn)來(lái)自兩方面,第一是人形機(jī)器人存量不足;第二是單純依賴真實(shí)采集數(shù)據(jù)成本過(guò)高。


“但這并不代表沒(méi)有解決困境的方式,事實(shí)上在具身智能冷啟動(dòng)的時(shí)代,中國(guó)企業(yè)是有機(jī)會(huì)領(lǐng)跑的,不完全依賴真實(shí)數(shù)據(jù)的采集,而是更多使用合成數(shù)據(jù)在仿真器里進(jìn)行大規(guī)模的強(qiáng)化學(xué)習(xí),探索與真實(shí)世界的交互方式,提升具身大模型的訓(xùn)練效率和泛化效果?!蓖斛Q分析。為此,銀河通用自研仿真數(shù)據(jù)合成管線,迄今為止已積累了億級(jí)真實(shí)應(yīng)用場(chǎng)景數(shù)據(jù)及百億級(jí)的合成仿真數(shù)據(jù),利用這些合成數(shù)據(jù)進(jìn)行技能學(xué)習(xí),機(jī)器人Galbot 可以直接將所學(xué)技能泛化到真實(shí)世界中,現(xiàn)已在全球率先進(jìn)行了大規(guī)模的VLA真實(shí)落地實(shí)踐。


編者注:以下為北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人及首席技術(shù)官、智源學(xué)者代表王鶴在2025年貝殼財(cái)經(jīng)年會(huì)上的主題演講全文(根據(jù)錄音整理,略有刪減)


一、人形機(jī)器人能否產(chǎn)生新質(zhì)生產(chǎn)力,主要取決于具身智能的發(fā)展


尊敬的各位領(lǐng)導(dǎo),來(lái)賓,非常榮幸今天在2025貝殼財(cái)經(jīng)年會(huì)代表具身智能與人形機(jī)器人產(chǎn)業(yè)分享我們企業(yè)、學(xué)術(shù)界、研究界對(duì)于該行業(yè)的一些實(shí)踐和思考。首先,我的主題比較偏技術(shù)方向,但這背后反映的是我們中國(guó)新一代研究人員、新生代企業(yè)家們努力去引領(lǐng)、試圖去“領(lǐng)跑”的一些嘗試。


銀河通用實(shí)際上是一家很新的公司,我們2023年5月注冊(cè)成立于海淀,是一家基于具身大模型的通用機(jī)器人研發(fā)公司,我們的愿望是用通用機(jī)器人賦能千行百業(yè),服務(wù)千家萬(wàn)戶。正如黃市長(zhǎng)、李部長(zhǎng)所言,具身智能是推動(dòng)制造業(yè)、生產(chǎn)性服務(wù)業(yè)及新質(zhì)生產(chǎn)力的關(guān)鍵領(lǐng)域。


過(guò)去兩年,中美及全球在具身智能領(lǐng)域風(fēng)起云涌,代表性事件包括多模態(tài)大模型推出、特斯拉發(fā)布人形機(jī)器人Optimus。自2023年銀河通用創(chuàng)立以來(lái),中國(guó)目前約有200家人形機(jī)器人和具身智能企業(yè)。


但人形機(jī)器人和具身智能并非傳統(tǒng)意義上的制造業(yè)企業(yè),其核心不僅是制造人形機(jī)器人本體,更要有自主干活的智能,也就是具身智能,即通過(guò)手眼腦協(xié)調(diào),以模型推動(dòng)機(jī)器人自主干活,充分利用人類(lèi)身體,實(shí)現(xiàn)人能干的活機(jī)器人都能干,這就是通用機(jī)器人。


當(dāng)前中國(guó)制造業(yè)不斷發(fā)展,已用諸多自動(dòng)化、流程化方式實(shí)現(xiàn)汽車(chē)制造業(yè)多個(gè)環(huán)節(jié)無(wú)人化,形成“黑燈工廠”。制造業(yè)正在走強(qiáng),但尚未達(dá)到“智造”,人工智能尤其是基于數(shù)據(jù)驅(qū)動(dòng)的人工智能占比不高。這并非中國(guó)制造業(yè)獨(dú)有現(xiàn)狀,人形機(jī)器人真正自主干活在全球均未大規(guī)模應(yīng)用。


實(shí)際上,人形機(jī)器人行業(yè)并非新鮮事物。上世紀(jì)60年代,日本開(kāi)始研究機(jī)器人,到世紀(jì)之交波士頓動(dòng)力推出機(jī)器人,已有近60年發(fā)展歷程。如今一些知名人形機(jī)器人企業(yè)已退出歷史舞臺(tái)。


因此,人形機(jī)器人能否產(chǎn)生新質(zhì)生產(chǎn)力,主要取決于具身智能的發(fā)展。


二、VLA是具身智能與大模型融合的新趨勢(shì),阻礙是缺少數(shù)據(jù)


大模型對(duì)具身智能有極大的推動(dòng)性作用。大語(yǔ)言模型吸收互聯(lián)網(wǎng)大量語(yǔ)料后,如豆包大模型已能流暢無(wú)延遲對(duì)話。多模態(tài)大模型能看懂圖并據(jù)此語(yǔ)言回答,如GPT-4V、GPT-4o及國(guó)內(nèi)DeepSeek、通義千問(wèn)均推出多模態(tài)大模型。


但這些通用大模型仍不足以讓機(jī)器人干活。例如,讓機(jī)器人拿面前的話筒,大語(yǔ)言模型可能會(huì)說(shuō)“好的你可以伸出右手抓住話筒,并把它拿起”,這樣的語(yǔ)言描述不夠,因?yàn)闄C(jī)器人手臂有6、7個(gè)電機(jī),靈巧手可能有十幾二十個(gè)電機(jī),機(jī)器人需要的是每個(gè)電機(jī)輸出多少扭矩的信息才能執(zhí)行。模型說(shuō)“請(qǐng)拿起來(lái)”,但機(jī)器人無(wú)法理解,因?yàn)槟P筒痪邆淇刹僮餍浴?/p>


所以多模態(tài)大模型要做的是將視覺(jué)感知和語(yǔ)言交互等作為輸入,機(jī)器人動(dòng)作作為輸出,這是具身智能與大模型融合的新趨勢(shì),即VLA(Vision-Language-Action)大模型。雖由美國(guó)谷歌提出,但目前全球?qū)W術(shù)界和產(chǎn)業(yè)界均在深入研究。


該領(lǐng)域研究最大阻礙是缺少數(shù)據(jù)。


以自動(dòng)駕駛為例,其數(shù)據(jù)來(lái)自車(chē)主駕駛。人形機(jī)器人行業(yè)面臨兩大挑戰(zhàn):以銀河通用為例,即便今年計(jì)劃量產(chǎn)千臺(tái),也仍與頭部車(chē)企數(shù)百萬(wàn)臺(tái)的出貨量有差距。車(chē)賣(mài)出后車(chē)主駕駛可自動(dòng)回傳數(shù)據(jù),而今天大多數(shù)人形機(jī)器人存在的問(wèn)題是,買(mǎi)回家后幾乎全靠遙控器操作,與車(chē)買(mǎi)回家即能駕駛帶來(lái)價(jià)值有巨大差異。這就是為什么這么火的產(chǎn)業(yè),目前剛達(dá)到千臺(tái)的水平,當(dāng)然跟制造的供應(yīng)鏈和成熟度有關(guān)系,但要推到萬(wàn)臺(tái)、百萬(wàn)臺(tái),推到能彌補(bǔ)未來(lái)中國(guó)老齡化、少子化導(dǎo)致的生產(chǎn)力缺口、勞動(dòng)力缺口,我們還有很漫長(zhǎng)的道路。這里面一定需要智能,一定需要數(shù)據(jù)。


關(guān)于數(shù)據(jù)問(wèn)題,美國(guó)的解決方法是人穿動(dòng)捕服或用遙控器操縱機(jī)器人采集數(shù)據(jù)。這存在兩大劣勢(shì):存量不足,短期內(nèi)無(wú)法將人形機(jī)器人造到上百萬(wàn)臺(tái);第二賣(mài)給客戶的無(wú)應(yīng)用功能的機(jī)器人無(wú)法采集有效的任務(wù)數(shù)據(jù),且耗時(shí),遙控機(jī)器人干活比人自己干還慢。這兩個(gè)劣勢(shì)都導(dǎo)致具身智能缺乏源源不斷的數(shù)據(jù)。


我們的數(shù)據(jù)需求是干各種事情,可能需要上百億條數(shù)據(jù),對(duì)應(yīng)到Token可能需要上萬(wàn)億,至少達(dá)到當(dāng)前大模型的Token數(shù)才能實(shí)現(xiàn)泛化。目前公開(kāi)的最大數(shù)據(jù)集僅100萬(wàn)條,相差4、5個(gè)數(shù)量級(jí),這是具身智能發(fā)展的最大瓶頸。


三、利用合成數(shù)據(jù)在具身智能冷啟動(dòng)時(shí)代先行推進(jìn)


但中國(guó)企業(yè)在人形機(jī)器人賽道有“領(lǐng)跑”機(jī)會(huì),就是使用合成數(shù)據(jù),而非完全依賴真實(shí)世界的數(shù)據(jù),在具身智能冷啟動(dòng)時(shí)代先行推進(jìn)。


也就是通過(guò)數(shù)字資產(chǎn)制造大量運(yùn)動(dòng)軌跡和標(biāo)簽,在仿真器里進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),探索交互、物體使用方式,研究仿真器數(shù)據(jù)到真實(shí)世界的遷移,即Sim2Real(從仿真到現(xiàn)實(shí)),實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)到運(yùn)動(dòng)軌跡到Sim2Real的全鏈條。這一技術(shù)路線是我在斯坦福大學(xué)讀博士到加入北京大學(xué)后一直在推動(dòng)的。


該技術(shù)路線可使用消費(fèi)級(jí)顯卡進(jìn)行圖片渲染,整體管線可大規(guī)模批量復(fù)制,數(shù)據(jù)制造成本遠(yuǎn)低于在真實(shí)世界進(jìn)行采集。基于完全無(wú)需真實(shí)世界采集的十億級(jí)合成大數(shù)據(jù),我們訓(xùn)練出端到端具身大模型GraspVLA,這是世界首個(gè)以合成數(shù)據(jù)為唯一預(yù)訓(xùn)練動(dòng)作數(shù)據(jù)的具身基礎(chǔ)抓取大模型。


在真實(shí)世界中,這樣的預(yù)訓(xùn)練大模型采集效率極高。例如拆箱水,我們僅需一個(gè)工人采集,200條軌跡,訓(xùn)練出的模型就能很好地分拆一箱水。這樣的預(yù)訓(xùn)練大模型還能應(yīng)對(duì)新飲品,如農(nóng)夫山泉和東方樹(shù)葉,從4瓶改為3瓶,蓋子從綠色改為紅色、白色,大小高度變化,模型無(wú)需采集新數(shù)據(jù)、重新訓(xùn)練,可直接泛化。這表明具身智能擁有十億級(jí)別數(shù)據(jù)后,能舉一反三,對(duì)一個(gè)任務(wù)僅需一天下午采集,就能在同類(lèi)物品間自動(dòng)泛化,大幅降低具身智能應(yīng)用的數(shù)據(jù)成本,使企業(yè)能用得起相關(guān)解決方案。


我們推出全球首個(gè)人形機(jī)器人智慧零售解決方案,在北京的店里,機(jī)器人真實(shí)抓藥。訂單下到倉(cāng)后,無(wú)需人員24小時(shí)值守,由人形機(jī)器人操作,涉及從貨架區(qū)、密集擺放區(qū)精巧抽出藥盒、拉開(kāi)柜子抽屜取藥等,24小時(shí)不間斷送藥,滿足夜間病人需求。目前北京已有10家門(mén)店,今年計(jì)劃在北京、上海、深圳等城市開(kāi)設(shè)100家藥店。


我們的具身大模型還可以賦能四足機(jī)器人陪伴逛商場(chǎng)。算法實(shí)時(shí)給出跟隨軌跡,借助室內(nèi)自動(dòng)駕駛技術(shù)讓機(jī)器狗靈巧移動(dòng)。在人流密集、無(wú)箭頭指引的商場(chǎng),面對(duì)各種動(dòng)態(tài)遮擋,這都是基于合成數(shù)據(jù)技術(shù)生成的端到端模型實(shí)現(xiàn)的。


最后總結(jié)一下,在目前人形機(jī)器人賽道,我們要有自己的領(lǐng)先技術(shù),要有定義這個(gè)行業(yè)風(fēng)向標(biāo)的能力,銀河通用用合成數(shù)據(jù)打造的具身大模型,把各種能力融為一體,在過(guò)去短短兩年時(shí)間內(nèi)完成了數(shù)輪融資,并且累計(jì)融資了24億元人民幣。


我非常感謝國(guó)家出臺(tái)的相關(guān)政策引導(dǎo),以及產(chǎn)業(yè)方和頭部VC支持,我相信作為中國(guó)具身智能領(lǐng)軍企業(yè),銀河通用將持續(xù)“領(lǐng)跑”,引領(lǐng)行業(yè)走出一條比新能源汽車(chē)更輝煌的路線,真正開(kāi)啟生產(chǎn)力人形機(jī)器人的落地時(shí)代。


謝謝大家。


新京報(bào)貝殼財(cái)經(jīng)記者 張晗


編輯 劉佳妮


校對(duì) 陳荻雁