花149塊錢,能買到什麼級別的保潔服務?
答:一個阿姨+一個工程師+一台重逾百公斤的盤式機械人,上門服務三小時。這個配置放在58到家的訂單頁上,一度讓人懷疑是不是系統 Bug,少打了一個零?
托馬斯白就是帶着「這不可能不是坑」的心態下的單。5月10日上午十點,門鈴響了。門外站着三個人和一個機械人,貨拉拉司機推着機械人,工程師背着工具包,阿姨繫着圍裙。
陣仗不小,然後呢?
工程師的主要工作是盯着急停按鈕
機械人背後掛着一台4K無線投屏設備,經5G路由把畫面同步到幾公里外的遠程操作員屏幕上,大部分動作都是遠程遙操完成的。
機械人卡機了兩次,工程師上前調試重啟;剩下的時間他的主要工作是站在機械人後面,盯着那顆紅色急停按鈕。
機械人過不了門檻,所以只負責客廳。
三個小時裏,它拎起倒地的書包、拉上拉鏈(夾了3次才成功)、把三個書包摞成一摞。疊了五六件衣服,每件耗時5到10分鐘,疊完像揉過的報紙。茶几雜物歸類丟進垃圾桶,餐桌雜物碼成半桌,臨走把門口的鞋擺齊。


阿姨則收拾廚房、廁所、臥室。托馬斯白說,那位「附贈」的阿姨兢兢業業,這次體驗的下限被她拉得很高。

總結來說,機械人負責表演,阿姨負責兜底,工程師負責盯着別出事。
這149元的服務,來自自變量機械人與58到家今年3月在深圳上線的合作項目。
但你可能低估了這台「疊不好衣服的機械人」背後的資本陣容。
這家成立兩年多的公司,在過去半年裏把阿里、美團、字節跳動、小米四家互聯網大廠罕見地拉到了同一張投資名單上,是國內唯一同時拿到這四家投資的具身智能公司。僅2026開年的 A++輪,就融了10億元。
四家大廠在這個賽道罕見地沒有互相等着,而是一起向同一家公司砸錢。
前段時間,自變量發佈了全球首個基於「世界統一模型」(World Unified Model,WUM)架構的具身基礎模型 WALL-B。35天後,搭載 WALL-B的新一代機械人將首批進入真實家庭。
自變量 CEO王潛判斷:「今天在全世界範圍內,沒有任何一台機械人可以在沒有遙控操作的情況下,獨立完成大部分日常家務。」
宇樹科技創始人王興興也持類似看法:機械人在預設場景中成功率趨近100%,一旦場景變化或出現從未見過的事件,成功率斷崖式下跌。他認為機械人做家務還需要3到5年。
也就是說,全行業的共識是——現在還不行。但所有人還在拼命往前沖。這中間的邏輯,我們從技術架構說起。
自變量 CTO王昊在發佈會上做了一個類比。
M1之前,CPU、GPU、內存各自獨立,數據搬運產生延遲和損耗;蘋果用統一內存架構讓所有處理單元共享同一塊內存,性能因此躍遷。
VLA(視覺-語言-動作)架構就像 M1之前的電腦:視覺模塊、語言模塊、動作模塊各自為政,數據在模塊之間搬來搬去,每搬一次就丟一次信息。視覺學到的豐富信息,傳到動作模塊時只剩一個模糊的摘要。這是自變量過去一年在家庭部署中實地摸到的天花板。
WUM則把視覺、語言、動作、觸覺、物理預測全部放進同一個網絡,從零開始聯合訓練。這樣,機械人看到杯子的同時就在計算怎麼抓;感受到重量的瞬間同步調整力度。
與此同時,模型內置了對重力、慣性、摩擦力的「世界觀」——桌邊有一個半懸空的盤子,即便從未見過,它也能推斷會掉,主動推回桌面。
這是零樣本泛化的基礎,意味着機械人不必為每一個家庭重新訓練。
而王昊在發佈會上反覆強調的另一件事是數據。「實驗室里的數據是能用但低價值的『糖水數據』,真實家庭的數據則是難採集但高價值的『牛奶數據』。」
這句話解釋了一切:為什麼自變量執意在保潔阿姨身邊部署一台動作遲緩、遠程遙操、還會卡機的機械人。
不是為了讓你家變乾淨。是為了讓機械人變聰明。
太平洋彼岸的 Figure:10萬行 C++代碼,被1000小時人類動作數據替換
同樣在押注數據的,是 Figure。
最近,Figure發佈了一段視頻。兩台 Figure03人形機械人在剪輯後的兩分鐘內完成了一整套臥室復位動作:開門,掛衣服,把耳機放回架子,合上一本書,把垃圾扔進腳踏垃圾桶,把椅子推回桌下,配合鋪好一張床。

其中被反覆轉發的鏡頭是機械人單腿支撐、用另一隻腳去踩垃圾桶的踏板。這個動作需要同時完成重心轉移、腳踝精準控制和手部操作,是 loco-manipulation(移動操作)領域的硬骨頭。

這套系統跑的是 Vision-Language-Action模型,名叫 Helix-02。
Helix-02採用「System0/1/2」三層架構:System2慢速推理目標和任務序列,System1以200Hz的速度將感知轉化為全身關節指令,System0負責底層基礎控制。這種分層設計讓機械人在搬運易碎物品時能邊走邊保持穩定握持,甚至在雙手被佔用時,用臀部頂上抽屜、用腳抬起洗碗機的門。
Figure把過去十萬餘行手寫的 C++控制代碼替換成了一個端到端的「omni-model」,從像素直接算出力矩。按照 Figure官方的描述,這是單一學習神經網絡在多人形機械人協同動作控制上的首次展示。
兩台機械人之間沒有共享規劃器,沒有消息通信,沒有中央協調。它們各自帶着攝像頭,靠看對方的動作來推斷對方意圖。有點像兩個人一起疊被單時,通過手的移動猜測對方下一步的拉扯方向。
Figure CEO Brett Adcock計劃在2026年底把 Figure03送進「精選家庭」,目標售價2萬美元以下,月租600美元。但他也承認,機械人在自己孩子附近時,他還是會「盯着」。
——做機械人的人自己都不敢完全放手。這大概是對「家庭場景有多難」最誠實的註腳。
另一家值得留意的是挪威的1X Technologies。其位於加州海沃德的 NEO工廠於2026年4月啟動,約5.4萬平方英尺,是美國首座全流程大規模製造人形機械人的工廠,獲 OpenAI資本加持。NEO定價2萬美元,月租499美元,首批1萬台產能在五天內全部售罄。

相比之下,波士頓動力按下了暫停鍵。Atlas明確聚焦工業場景,CEO Robert Playter預測人形機械人要5到10年後才能真正走進家庭:「急着進軍家庭市場或許是一個策略上的誤區。」
一側是五天售罄的狂熱,一側是5到10年的冷靜預判。分歧之大,恰恰說明誰都沒把握,但誰都不敢不下場。
為什麼全世界還在搶着做
既然行業判斷從3年到10年不等,為什麼還要搶?
關鍵在於數據。
過去,機械人變強靠的是工程師寫更好的代碼。現在,靠的是吃進更多更好的數據。家庭場景不只是一個「應用市場」,而是一座數據礦。
a16z的分析指出,工廠里的任務是重複的、有邊界的,而家庭里充滿了「never before seen」的情況。這種長尾,過去是 bug,現在變成了 feature。
這就解釋了149元三小時為什麼不虧:
貨拉拉運輸、工程師工時、阿姨成本——賬面上149元遠低於成本。但每一戶托馬斯白家的三小時,都是無法在實驗室復現的真實長尾數據;服務的下限由阿姨兜底,所以即便機械人卡機兩次、衣服疊得像揉過的報紙,用戶體驗也不至於崩盤。
用戶以為自己買了保潔服務。實際上,他們在給機械人當老師。而149元,是學費補貼。
真正改變家務的機械人,恐怕不會一夜之間冒出來。
它會先笨拙地走進一戶深圳的客廳,疊不好衣服,被工程師盯着,被阿姨兜底,被某個付了149元的用戶半好奇半挑剔地觀察一下午。第二天,再來一戶。
一萬戶之後,那台盤式機械人,或許才會真的把衣服疊整齊。


















