149元叫了個保潔來了三個人和一台機械人超值＊阿波羅新聞網

花149塊錢，能買到什麼級別的保潔服務？

答：一個阿姨+一個工程師+一台重逾百公斤的盤式機械人，上門服務三小時。這個配置放在58到家的訂單頁上，一度讓人懷疑是不是系統 Bug，少打了一個零？

托馬斯白就是帶着「這不可能不是坑」的心態下的單。5月10日上午十點，門鈴響了。門外站着三個人和一個機械人，貨拉拉司機推着機械人，工程師背着工具包，阿姨繫着圍裙。

陣仗不小，然後呢？

工程師的主要工作是盯着急停按鈕

機械人背後掛着一台4K無線投屏設備，經5G路由把畫面同步到幾公里外的遠程操作員屏幕上，大部分動作都是遠程遙操完成的。

機械人卡機了兩次，工程師上前調試重啟；剩下的時間他的主要工作是站在機械人後面，盯着那顆紅色急停按鈕。

機械人過不了門檻，所以只負責客廳。

三個小時裏，它拎起倒地的書包、拉上拉鏈（夾了3次才成功）、把三個書包摞成一摞。疊了五六件衣服，每件耗時5到10分鐘，疊完像揉過的報紙。茶几雜物歸類丟進垃圾桶，餐桌雜物碼成半桌，臨走把門口的鞋擺齊。

阿姨則收拾廚房、廁所、臥室。托馬斯白說，那位「附贈」的阿姨兢兢業業，這次體驗的下限被她拉得很高。

總結來說，機械人負責表演，阿姨負責兜底，工程師負責盯着別出事。

這149元的服務，來自自變量機械人與58到家今年3月在深圳上線的合作項目。

但你可能低估了這台「疊不好衣服的機械人」背後的資本陣容。

這家成立兩年多的公司，在過去半年裏把阿里、美團、字節跳動、小米四家互聯網大廠罕見地拉到了同一張投資名單上，是國內唯一同時拿到這四家投資的具身智能公司。僅2026開年的 A++輪，就融了10億元。

四家大廠在這個賽道罕見地沒有互相等着，而是一起向同一家公司砸錢。

前段時間，自變量發佈了全球首個基於「世界統一模型」（World Unified Model，WUM）架構的具身基礎模型 WALL-B。35天後，搭載 WALL-B的新一代機械人將首批進入真實家庭。

自變量 CEO王潛判斷：「今天在全世界範圍內，沒有任何一台機械人可以在沒有遙控操作的情況下，獨立完成大部分日常家務。」

宇樹科技創始人王興興也持類似看法：機械人在預設場景中成功率趨近100%，一旦場景變化或出現從未見過的事件，成功率斷崖式下跌。他認為機械人做家務還需要3到5年。

也就是說，全行業的共識是——現在還不行。但所有人還在拼命往前沖。這中間的邏輯，我們從技術架構說起。

自變量 CTO王昊在發佈會上做了一個類比。

M1之前，CPU、GPU、內存各自獨立，數據搬運產生延遲和損耗；蘋果用統一內存架構讓所有處理單元共享同一塊內存，性能因此躍遷。

VLA（視覺-語言-動作）架構就像 M1之前的電腦：視覺模塊、語言模塊、動作模塊各自為政，數據在模塊之間搬來搬去，每搬一次就丟一次信息。視覺學到的豐富信息，傳到動作模塊時只剩一個模糊的摘要。這是自變量過去一年在家庭部署中實地摸到的天花板。

WUM則把視覺、語言、動作、觸覺、物理預測全部放進同一個網絡，從零開始聯合訓練。這樣，機械人看到杯子的同時就在計算怎麼抓；感受到重量的瞬間同步調整力度。

與此同時，模型內置了對重力、慣性、摩擦力的「世界觀」——桌邊有一個半懸空的盤子，即便從未見過，它也能推斷會掉，主動推回桌面。

這是零樣本泛化的基礎，意味着機械人不必為每一個家庭重新訓練。

而王昊在發佈會上反覆強調的另一件事是數據。「實驗室里的數據是能用但低價值的『糖水數據』，真實家庭的數據則是難採集但高價值的『牛奶數據』。」

這句話解釋了一切：為什麼自變量執意在保潔阿姨身邊部署一台動作遲緩、遠程遙操、還會卡機的機械人。

不是為了讓你家變乾淨。是為了讓機械人變聰明。

太平洋彼岸的 Figure：10萬行 C++代碼，被1000小時人類動作數據替換

同樣在押注數據的，是 Figure。

最近，Figure發佈了一段視頻。兩台 Figure03人形機械人在剪輯後的兩分鐘內完成了一整套臥室復位動作：開門，掛衣服，把耳機放回架子，合上一本書，把垃圾扔進腳踏垃圾桶，把椅子推回桌下，配合鋪好一張床。

其中被反覆轉發的鏡頭是機械人單腿支撐、用另一隻腳去踩垃圾桶的踏板。這個動作需要同時完成重心轉移、腳踝精準控制和手部操作，是 loco-manipulation（移動操作）領域的硬骨頭。

這套系統跑的是 Vision-Language-Action模型，名叫 Helix-02。

Helix-02採用「System0/1/2」三層架構：System2慢速推理目標和任務序列，System1以200Hz的速度將感知轉化為全身關節指令，System0負責底層基礎控制。這種分層設計讓機械人在搬運易碎物品時能邊走邊保持穩定握持，甚至在雙手被佔用時，用臀部頂上抽屜、用腳抬起洗碗機的門。

Figure把過去十萬餘行手寫的 C++控制代碼替換成了一個端到端的「omni-model」，從像素直接算出力矩。按照 Figure官方的描述，這是單一學習神經網絡在多人形機械人協同動作控制上的首次展示。

兩台機械人之間沒有共享規劃器，沒有消息通信，沒有中央協調。它們各自帶着攝像頭，靠看對方的動作來推斷對方意圖。有點像兩個人一起疊被單時，通過手的移動猜測對方下一步的拉扯方向。

Figure CEO Brett Adcock計劃在2026年底把 Figure03送進「精選家庭」，目標售價2萬美元以下，月租600美元。但他也承認，機械人在自己孩子附近時，他還是會「盯着」。

——做機械人的人自己都不敢完全放手。這大概是對「家庭場景有多難」最誠實的註腳。

另一家值得留意的是挪威的1X Technologies。其位於加州海沃德的 NEO工廠於2026年4月啟動，約5.4萬平方英尺，是美國首座全流程大規模製造人形機械人的工廠，獲 OpenAI資本加持。NEO定價2萬美元，月租499美元，首批1萬台產能在五天內全部售罄。

相比之下，波士頓動力按下了暫停鍵。Atlas明確聚焦工業場景，CEO Robert Playter預測人形機械人要5到10年後才能真正走進家庭：「急着進軍家庭市場或許是一個策略上的誤區。」

一側是五天售罄的狂熱，一側是5到10年的冷靜預判。分歧之大，恰恰說明誰都沒把握，但誰都不敢不下場。

為什麼全世界還在搶着做

既然行業判斷從3年到10年不等，為什麼還要搶？

關鍵在於數據。

過去，機械人變強靠的是工程師寫更好的代碼。現在，靠的是吃進更多更好的數據。家庭場景不只是一個「應用市場」，而是一座數據礦。

a16z的分析指出，工廠里的任務是重複的、有邊界的，而家庭里充滿了「never before seen」的情況。這種長尾，過去是 bug，現在變成了 feature。

這就解釋了149元三小時為什麼不虧：

貨拉拉運輸、工程師工時、阿姨成本——賬面上149元遠低於成本。但每一戶托馬斯白家的三小時，都是無法在實驗室復現的真實長尾數據；服務的下限由阿姨兜底，所以即便機械人卡機兩次、衣服疊得像揉過的報紙，用戶體驗也不至於崩盤。

用戶以為自己買了保潔服務。實際上，他們在給機械人當老師。而149元，是學費補貼。

真正改變家務的機械人，恐怕不會一夜之間冒出來。

它會先笨拙地走進一戶深圳的客廳，疊不好衣服，被工程師盯着，被阿姨兜底，被某個付了149元的用戶半好奇半挑剔地觀察一下午。第二天，再來一戶。

一萬戶之後，那台盤式機械人，或許才會真的把衣服疊整齊。

責任編輯：李華　來源：愛范兒轉載請註明作者、出處並保持完整。

149元叫了個保潔 來了三個人和一台機械人 超值

相關新聞

149元叫了個保潔來了三個人和一台機械人超值