(文/李哲)2025年12月2日至7日,第三十九屆神經(jīng)信息處理系統(tǒng)大會(huì)(Conference on Neural Information Processing Systems,簡(jiǎn)稱NeurIPS 2025)在圣地亞哥和墨西哥城同步舉行。
作為機(jī)器學(xué)習(xí)與人工智能領(lǐng)域的頂級(jí)會(huì)議,NeurIPS 2025主賽道共收到21,575篇有效投稿,最終錄用5,290篇,錄用率為24.52%。被錄用的論文根據(jù)原創(chuàng)性、技術(shù)質(zhì)量、潛在影響力及寫作清晰度等標(biāo)準(zhǔn),分為口頭報(bào)告(Oral)、亮點(diǎn)報(bào)告(Spotlight)與海報(bào)展示(Poster)三類。

圖為王涵(右一)在NeurIPS 2025圣地亞哥會(huì)場(chǎng)展示其論文成果
軟件工程師王涵參與完成的論文《PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning》成功入選主會(huì),并以海報(bào)形式在圣地亞哥的線下會(huì)場(chǎng)展示。這篇論文的入選,不僅印證了她在多模態(tài)機(jī)器人感知領(lǐng)域的技術(shù)貢獻(xiàn),更展示了她將計(jì)算機(jī)圖形學(xué)與3D感知經(jīng)驗(yàn)轉(zhuǎn)化為智能決策能力的綜合實(shí)力。
核心突破:PointMapPolicy提升機(jī)器人對(duì)3D環(huán)境的多模態(tài)理解能力
在機(jī)器人模仿學(xué)習(xí)領(lǐng)域,3D點(diǎn)云數(shù)據(jù)作為關(guān)鍵感知輸入,其結(jié)構(gòu)化處理與多模態(tài)融合一直是技術(shù)痛點(diǎn)。傳統(tǒng)方法往往難以兼顧點(diǎn)云幾何信息的完整性與處理效率,導(dǎo)致機(jī)器人在復(fù)雜場(chǎng)景下的決策精度不足、泛化能力有限。
王涵與團(tuán)隊(duì)提出的PointMapPolicy框架,創(chuàng)新性地實(shí)現(xiàn)了3D幾何信息與高效2D視覺(jué)架構(gòu)的深度融合,為多模態(tài)模仿學(xué)習(xí)提供了一種兼具性能與實(shí)用性的新方法。該研究聚焦結(jié)構(gòu)化點(diǎn)云處理核心技術(shù),通過(guò)優(yōu)化特征編碼與模態(tài)融合機(jī)制,讓機(jī)器人能更精準(zhǔn)地解析環(huán)境空間結(jié)構(gòu),結(jié)合視覺(jué)、語(yǔ)言等多模態(tài)信息完成復(fù)雜任務(wù)。
實(shí)驗(yàn)表明,該方法在CALVIN(Composing Actions from Language and Vision,語(yǔ)言引導(dǎo)長(zhǎng)時(shí)序操作基準(zhǔn))和RoboCasa(Large-Scale Dataset for Household Task Learning in Simulation,面向家庭場(chǎng)景的大規(guī)模仿真數(shù)據(jù)集)等主流具身智能評(píng)測(cè)基準(zhǔn)上,PointMapPolicy在零樣本泛化設(shè)置下,達(dá)到與當(dāng)前最優(yōu)方法相當(dāng)?shù)男阅堋4送猓芯繄F(tuán)隊(duì)還在真實(shí)Franka Panda機(jī)械臂上驗(yàn)證了從仿真到現(xiàn)實(shí)的遷移能力。該方法通過(guò)高效融合完整3D幾何與視覺(jué)語(yǔ)義信息,彌補(bǔ)了現(xiàn)有模仿學(xué)習(xí)在精細(xì)空間感知方面的不足。其技術(shù)路徑為服務(wù)機(jī)器人等需要高保真環(huán)境理解的場(chǎng)景提供了新的可能性。
系統(tǒng)性探索:X-IL框架賦能模仿學(xué)習(xí)策略設(shè)計(jì)空間研究
PointMapPolicy的技術(shù)突破并非孤立事件,王涵還作為重要貢獻(xiàn)者參與了另一項(xiàng)研究《X-IL: Exploring the Design Space of Imitation Learning Policies》。該論文已成功入選國(guó)際學(xué)習(xí)表征大會(huì)2025(International Conference on Learning Representations,簡(jiǎn)稱ICLR)下屬機(jī)器人學(xué)習(xí)研討會(huì)(Workshop on Robot Learning,簡(jiǎn)稱WRL),并從入選論文中脫穎而出,進(jìn)一步獲選為口頭報(bào)告(Oral Presentation)。該研究提出高度模塊化的開(kāi)源框架,為系統(tǒng)探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間提供了高效工具,其核心價(jià)值與技術(shù)創(chuàng)新性獲得領(lǐng)域同行的廣泛認(rèn)可。
值得關(guān)注的是,ICLR與NeurIPS、ICML并稱為機(jī)器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議,以開(kāi)放評(píng)審機(jī)制和對(duì)表征學(xué)習(xí)的深度聚焦聞名業(yè)界。而WRL作為ICLR的核心附屬研討會(huì),匯聚了全球機(jī)器人學(xué)習(xí)領(lǐng)域的頂尖研究者,是交流前沿方法、分享系統(tǒng)性實(shí)證研究的重要平臺(tái)。論文入選并獲口頭報(bào)告資格,在印證研究實(shí)用價(jià)值的同時(shí),也從側(cè)面反映了王涵在專業(yè)領(lǐng)域的深厚積淀。
技術(shù)賦能:從產(chǎn)業(yè)實(shí)踐到學(xué)術(shù)的持續(xù)跨越
無(wú)論是入選NeurIPS主會(huì)的PointMapPolicy,還是在ICLR機(jī)器人學(xué)習(xí)研討會(huì)展示的X-IL,這些學(xué)術(shù)成果的底層邏輯都扎根于王涵多年的實(shí)操積累。在Snap Inc.任職期間,她參與AR內(nèi)容引擎Lens Studio的圖形與物理仿真工具鏈開(kāi)發(fā),積累了面向?qū)崟r(shí)交互的3D系統(tǒng)構(gòu)建經(jīng)驗(yàn);在滴滴美國(guó)研究院(DiDi Research America, LLC),她主導(dǎo)高保真LiDAR仿真系統(tǒng)與3D資產(chǎn)庫(kù)建設(shè),深入掌握傳感器建模、點(diǎn)云生成與仿真-感知閉環(huán)優(yōu)化;加入meta Platforms, Inc.(前身為Facebook公司)后,她在Codec Avatars項(xiàng)目中推動(dòng)高保真虛擬人的端側(cè)重建與解耦表征學(xué)習(xí),進(jìn)一步錘煉多模態(tài)3D表示與高效推理能力。
這些橫跨AR、自動(dòng)駕駛與元宇宙的工程實(shí)踐,共同塑造了她對(duì)高保真3D感知、結(jié)構(gòu)化幾何表示與跨模態(tài)融合的系統(tǒng)性理解。這些經(jīng)驗(yàn)為PointMapPolicy中點(diǎn)云結(jié)構(gòu)化表示與多模態(tài)融合的設(shè)計(jì)提供了直接支撐。這種從真實(shí)場(chǎng)景出發(fā)的問(wèn)題定義方式,使得其研究成果(如PointMapPolicy)在CALVIN、RoboCasa及真實(shí)Franka Panda機(jī)械臂上均展現(xiàn)出良好的泛化性能與遷移能力。
結(jié)語(yǔ):融合產(chǎn)業(yè)經(jīng)驗(yàn)與學(xué)術(shù)探索,持續(xù)推動(dòng)機(jī)器人感知技術(shù)創(chuàng)新
從打造AR交互工具、構(gòu)建自動(dòng)駕駛仿真系統(tǒng),再到攻關(guān)元宇宙虛擬人技術(shù),王涵憑借對(duì)多模態(tài)智能與機(jī)器人感知領(lǐng)域的持續(xù)深耕,走出了一條兼具技術(shù)深度與實(shí)用價(jià)值的成長(zhǎng)之路。此次《PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning》入選NeurIPS 2025,不僅是對(duì)她個(gè)人創(chuàng)新能力的高度認(rèn)可,也印證了她在交叉技術(shù)領(lǐng)域的國(guó)際認(rèn)可度。
未來(lái),她將繼續(xù)聚焦3D結(jié)構(gòu)化感知、多模態(tài)融合與智能體決策系統(tǒng)的交叉研究,推動(dòng)相關(guān)技術(shù)在家庭服務(wù)機(jī)器人等實(shí)際場(chǎng)景中的可靠部署。我們有理由期待,這種扎根于實(shí)操、前瞻于學(xué)術(shù)的探索,將為具身智能的未來(lái)發(fā)展注入更多務(wù)實(shí)的創(chuàng)新動(dòng)力。

粵公網(wǎng)安備 44030702001206號(hào)