新京報貝殼財經(jīng)訊(記者羅亦丹)2月22日,商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛在2025GDC全球開發(fā)者先鋒大會上發(fā)布了端到端自動駕駛技術(shù)路線R-UniAD,通過構(gòu)建世界模型生成在線交互的仿真環(huán)境,以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。
“算法、算力和數(shù)據(jù)三者共同推動著人工智能技術(shù)的螺旋式上升和進(jìn)步,隨著強(qiáng)化學(xué)習(xí)等算法引入到大模型訓(xùn)練的思路得到驗(yàn)證,新的尺度定律正在開啟,數(shù)據(jù)價值被進(jìn)一步深入挖掘,模型能力天花板被打開?!蓖鯐詣偙硎尽?/p>
近期,DeepSeek-R1基于純強(qiáng)化學(xué)習(xí)的關(guān)鍵創(chuàng)新引發(fā)了廣泛的關(guān)注。通過少量高質(zhì)量數(shù)據(jù)的冷啟動,模型進(jìn)行多階段的強(qiáng)化學(xué)習(xí)訓(xùn)練,有效降低大模型訓(xùn)練的數(shù)據(jù)規(guī)模門檻。
王曉剛表示,基于強(qiáng)化學(xué)習(xí)的大模型技術(shù)路線也可以遷移到端到端自動駕駛算法的訓(xùn)練與研發(fā)之中,“多階段強(qiáng)化學(xué)習(xí)的訓(xùn)練方法能大幅降低端到端自動駕駛數(shù)據(jù)規(guī)模門檻。R-UniAD就是通過高質(zhì)量數(shù)據(jù)進(jìn)行冷啟動,用模仿學(xué)習(xí)的方式訓(xùn)練出一個端到端基礎(chǔ)模型,再通過強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。據(jù)測算,小樣本多階段學(xué)習(xí)的技術(shù)路線能讓端到端自動駕駛的數(shù)據(jù)需求降低一個數(shù)量級?!?/p>
編輯 韋英姿
校對 吳興發(fā)