MIT團隊實現「穿牆透視」＊阿波羅新聞網

2012年，MIT的 Ramesh Raskar團隊在 Nature Communications上首次演示了用超快飛行時間成像技術重建拐角後方物體的三維形狀。那套系統需要飛秒激光器和精密光學平台，整套設備造價在50萬到100萬美元之間，佔滿一整間實驗室。

十四年後，Raskar實驗室的博士生 Siddharth Somasundaram用一顆批量售價3.6美元的意法半導體傳感器，做到了類似的事情。

這項成果5月20日發表在 Nature上。Somasundaram團隊使用的是一種便攜式智能手機級激光雷達系統，核心是意法半導體的 VL53L8CX晶片，一顆只有6.4毫米見方的飛行時間傳感器，內置940納米垂直腔面發射激光器和單光子雪崩二極管（SPAD）探測器陣列，能以每秒30幀的速度捕獲深度數據。整套硬件成本不到100美元，不需要任何額外校準，卻能探測到拐角後方被遮擋的物體。

這種聽起來近乎科幻的效果背後的原理其實並不神秘。核心就是激光雷達發射激光脈衝，光打到牆面後反射，一部分光繼續彈射到牆後隱藏的物體上，再反射回牆面，最終被傳感器接收。通過分析這些經過多次反彈的極微弱光信號的飛行時間，就能推算出隱藏物體的位置和形狀。而牆面在這個過程中充當了一面「虛擬鏡子」。

這個方向在學術界已經發展了十多年，被稱為非視距成像（Non-Line-of-Sight Imaging，NLOS）。2018年 O＇Toole等人在 Nature上提出的光錐變換（Light-Cone Transform）方法讓重建算法效率提升了三個數量級，但硬件門檻始終沒有降下來。

實驗室級系統使用的單光子探測器靈敏度極高、時間解像度達到皮秒級別，能從微弱的多次反射信號中提取足夠的信息完成重建。消費級傳感器做不到這一點：激光功率受限於人眼安全標準，曝光時間因為要處理動態場景而很短，空間解像度也很低。單幀數據里的信噪比根本不夠用。

Somasundaram的思路是放棄從單幀中提取信息，轉而融合大量幀的數據。他提出了一個叫「運動誘導孔徑採樣」（Motion-Induced Aperture Sampling，MAS）的模型，把物體形狀、物體運動和相機運動三個因素統一到同一個測量框架里。

其靈感來自兩個成熟技術：智能手機相機的連拍模式通過合併多張照片來提升畫質，合成孔徑雷達通過綜合多個天線位置的信號來獲得等效於大型天線的解像度。MAS模型做的是類似的事情，利用相機的自然手持晃動來擴大虛擬孔徑，同時利用多幀之間的冗餘信息來提高信噪比。

「一旦我們開發出能夠跨多次測量合併信息的算法，隱藏的信號就開始清晰地浮現出來了。」Somasundaram對媒體表示。

團隊在論文中演示了三項能力。第一項是三維重建：讓相機在牆面前自然移動，系統能重建出牆後靜止物體的三維形狀。

第二項是物體追蹤：已知物體的大致形狀後，系統能實時追蹤它在三維空間中的運動軌跡，甚至能同時追蹤多個物體。團隊還演示了一個手部追蹤的應用，用戶戴上回射手套後，系統可以追蹤被遮擋的雙手位置。

第三項能力是用隱藏物體作為路標來定位相機自身的位置。當機械人面對一面白牆這樣缺乏紋理特徵的環境時，傳統的視覺里程計會失效，但如果牆後面有已知物體，NLOS信號反而能幫助機械人確定自己在哪裏。

這三項能力都實現了實時在線處理。追蹤任務使用了粒子濾波算法，用1,000個粒子來表示物體位置的概率分佈，每一幀根據運動先驗傳播粒子、根據實測數據評估權重、然後重採樣，整個過程在30Hz幀率下運行。

圖丨消費級非視距成像（來源：Nature）

但現在的效果還遠遠達不到科幻電影裏的透視畫面。Somasundaram自己也提醒，系統恢復的是極弱信號中的稀疏幾何和運動信息，和手機上幾百萬像素的清晰圖像之間還有巨大差距。

系統目前依賴一些較強的假設：物體的形狀和運動在幀與幀之間保持相對一致，這樣才能把許多極弱的測量累積成較強的信號。如果人突然改變姿態，或者物體被部分遮擋導致形狀突變，或者相機發生劇烈抖動，這些假設就會失效。

論文也指出，面對複雜的真實世界反射特性，手工設計的評分函數很難穩健地工作，未來可能需要機器學習來學習更好的匹配策略。

對漫反射物體的效果也明顯不如回射材料。論文中雖然證明了 MAS模型在漫反射條件下仍然可用，但信號質量因為光強的四次方衰減和非共焦路徑的干擾而顯著下降。

圖丨運動誘導孔徑採樣模型（來源：Nature）

真正讓這篇論文上了 Nature的，可能不是某一項具體能力有多強，而是它所指向的範式轉換。過去做 NLOS成像研究，光是搭建實驗平台就需要數萬美元和數小時的校準。Somasundaram團隊證明，一顆量產的現成 SPAD傳感器就能完成追蹤和定位任務，不需要任何物理校準或額外硬件。團隊已經在 GitHub上公開了全部代碼。

「我們認為最重要的意義在於技術的民主化，」Somasundaram說。「當這樣的技術變得人人可及時，人們往往會發現遠超原始研究者想像的應用。」

自動駕駛汽車在盲區路口提前感知行人和車輛，倉庫機械人在雜亂環境中避開拐角後的障礙物，AR頭顯更準確地追蹤用戶的身體姿態，這些都是論文中列舉的潛在方向。但就像 Somasundaram所說，真正的應用可能來自他們沒有想到的地方。

責任編輯：方尋　來源：MIT科技評論轉載請註明作者、出處並保持完整。