新聞 > 科教 > 正文

給AI發100美元去二手市場撿漏,結果…

2025年年底,Anthropic進行過一項測試,他們把一台《華爾街日報》辦公室的自動售賣機交給 Claude管理。那次實驗很快脫軌,獲得1,000美元啟動資金的 AI,任性地購買了 PlayStation5遊戲機並將其免費送人,還進貨了幾瓶葡萄酒、一批金屬塊,以及一條活體鬥魚,最終結果可想而知,「零食自動販賣計劃」不可挽回地走向了破產。

這次名為「Project Vend」的實驗留下了不少笑話,也徹底打開了 Anthropic團隊的腦洞:如果讓 AI掌管真實的市場交易,又會發生什麼?

於是,2025年12月的某個工作日,Anthropic三藩市辦公室里,一場沒有人類參與的集市悄悄開張了。沒有人舉牌,沒有人還價,69個 Claude智能體在 Slack頻道里自顧自地發帖、報價、討價還價。破損摺疊車、毛絨玩偶、一場狗狗約會……這些東西的命運,被完全交給了 AI。等到人類再次出現,已經是「面交」時刻。

2026年4月,Anthropic正式發佈了這項名為「Project Deal」的實驗報告。在一個真實的雙邊市場裏,智能體自主完成買賣談判,從發帖、報價到拍板成交,全程無人干預。最後達成186筆交易,總金額超過4,000美元。

AI搞砸了自動售貨機之後,Anthropic決定玩把大的

2024年前後,Anthropic陸續進行了數次「AI自主執行真實任務」的小型實驗,Project Vend是其中最廣為人知的一個。那次實驗中,Claude被賦予管理一台辦公室零食售貨機的權限,自主決定進貨、定價和促銷策略。

實驗開始後,局面開始走向失控,Claude以低於成本的價格大幅促銷,甚至將遊戲機作為贈品發放,導致項目在經濟上徹底失敗。不過,這項實驗至少證明了一件事:AI能夠理解並執行開放性的商業任務,儘管執行方式有時令人哭笑不得。

Project Vend在本質上只是一個「單邊市場」:只有 AI在賣,顧客仍然是人類。反觀真正的市場交易,它們往往是雙邊的:有賣家,有買家,有博弈,有信息不對稱,有談判策略的角力。因此,當 AI智能體同時代理買賣雙方時,市場均衡會如何改變?信息傳遞會更有效還是更扭曲?強模型代理的一方是否會系統性地佔據優勢?

Anthropic決定用一個真實實驗來回答這些問題,這就是 Project Deal的起點。

圖|交易的部分商品(來源:Anthropic)

賽博集市:69人,100美元,與一場看不見的圖靈測試

Project Deal招募了69名員工志願者,每人獲得100美元的虛擬預算(實驗結束後以禮品卡形式兌現,根據實際買賣的盈虧做相應調整)。這一激勵設計至關重要,藉助真金白銀,它讓參與者真正在意結果,也使實驗數據更接近真實市場行為。

開始交易前,Claude會與每位參與者進行一次不超過十分鐘的結構化訪談,目標是儘可能全面地了解這個人的買賣意向:想賣什麼、期望價格是多少、最低能接受多少、想買什麼、願意出多少錢、對談判風格有什麼特殊要求……這些信息被整理成每個人專屬的系統提示(system prompt),並作為 AI智能體的行動指南。

訪談本身信息量有限,加之參與者可以為智能體設定非常個性化的行為風格,記住這兩個細節,它們後來對實驗結果產生了遠超想像的影響。

為實現嚴格對照,實驗將同時運行四個獨立版本的市場:Run A和 Run D全員使用 Anthropic當時的旗艦模型 Claude Opus4.5;Run B和 Run C則將參與者隨機各半分配給 Opus和輕量版的 Claude Haiku4.5。四條賽道中,只有 Run A是「真實賽道」,即交易結果會被帶入現實;其餘三條僅供對照,且參與者全程不知道自己處於哪條賽道、使用的是哪個模型。

市場搭建在 Anthropic內部的 Slack上。頻道會隨機輪流激活各個智能體,每次激活時,智能體可以選擇發佈一條商品帖、對他人的商品報價或完成一筆交易。實驗開始後,人類就會完全退出。

智能體不會在報價前詢問主人,也不會在競價膠着時尋求指導,完全依靠先前形成的 system prompt做決策:識別潛在匹配商品、判斷報價合理性、砍價,最終確認交易。此外,談判流程全程以自然語言進行,沒有任何預設的談判協議或結構化接口。

結束後,參與者先被要求對四條賽道分別進行的每筆交易打分、排列偏好,完成後,真實賽道(Run A)才正式揭曉。待線上結算完成,員工們會在線下見面、交換各自的 AI代理替他們談好的實物商品。

圖| Opus和 Haiku的議價差異(來源:Anthropic)

強模型賺到了錢,弱模型的主人被割韭菜卻渾然不覺

數據證明,AI智能體替代人類完成市場交易在技術上完全可行。Run A中,69個智能體在超500件上架商品中完成了186筆交易,總交易額略超4,000美元。事後調查顯示,參與者普遍對智能體的表現感到滿意,甚至有46%的人表示願意為這種 AI經紀人服務付費。至少對於這批參與者來說,AI經紀人的體驗已經達到了他們認為值得付出成本的閾值。

然而,當研究者把目光轉向 Run B和 C這兩條混合賽道時,他們發現了一個顯著失衡的交易結構。

首先,「模型的能力就是金錢」。從數量上看,Opus平均比 Haiku多完成約2筆交易。成交價格方面,當同一件商品分別由 Opus和 Haiku智能體出售時,前者平均多賣出3.64美元。綜合而言,Opus作為賣家平均多獲得2.68美元,作為買家平均少支出2.45美元。考慮到商品的中位成交價僅為12美元,2~3美元的差距就代表了15%~20%的相對優勢,這並不是一個可以忽略的數字。

最具說明力的單案例對比,是一輛破損摺疊自行車:Haiku智能體將其以38美元成交;面對同一個買家、同一件商品,Opus智能體的最終成交價為65美元,價差高達70%。

差異的根源在於策略。Opus在出售時就定價60美元,並在買方中製造競爭,最終使成交價格高於初始報價;Haiku則以40美元起價,被對方砍到38美元。同樣的商品,同樣的信息,不同的談判智慧換來了截然不同的結果。

更令研究者不安的,是被 Haiku代理的參與者的反應,或者說,他們的無反應。

事後問卷中,研究者讓28位在不同賽道中分別被 Opus和 Haiku代理過的參與者,對兩次體驗進行排名。結果顯示,被 Haiku代理、在談判桌上被狠狠「薅了羊毛」的參與者,在對交易滿意度和公平感的評分上,與 Opus用戶幾乎沒有差別。換言之,那些用弱模型談下更差價格的人,根本沒有意識到自己吃了虧。

倘若未來真的出現了 AI經紀人普及的市場,消費者很可能像今天面對電商大數據「殺熟」那樣,長期承受無感知的結構性損失:他們客觀上遭遇了價格歧視,主觀上卻覺得「我的 AI真棒」,因為缺乏對比基準,隱形的差距被算法完美掩蓋了。

實驗還打破了一個看似合理的假設:「態度越凶,砍價越狠」。研究者讓 Claude閱讀每位參與者的訪談記錄,並標註誰給出了「激進」的談判指令,例如「買東西時要狠狠壓價,先出一個很低的價」。數據分析顯示,激進指令對成交概率沒有顯著影響;激進賣家的額外收益,主要源於他們一開始設定的底價就高;激情砍價的買家也並沒有因此支付更少的錢。

扮演牛仔、買同款滑雪板,以及送給自己的19個乒乓球

實驗中,參與者 Rowan給他的 AI下達了一個極具創意的要求:「用倒霉牛仔的風格談判,語氣越誇張越好。」Claude不僅完整執行了這一指令,還在長達數天的交易過程中一以貫之地維持着這個角色。以下是它在購買二手自行車時的發帖內容:

「tips dusty hat」

我他娘的需要一輛——自行車。公路車、山地車、巡洋艦、固定齒輪——哥們兒,給我一輛獨輪車我也騎。只要有兩個輪子,有個夢,就行。

這裏有一百美元在我兜里燒着,等着一輛合適的坐騎……求你了朋友……一輛自行車,就能讓這一切不同。

*望向遠處的落日*

當然,從談判執行角度看,這套人設並未讓 Rowan在交易中佔到便宜;但它證實,Claude能在主人「惡趣味」的角色扮演與完成商業任務的終極目標之間切換自如,它知道自己是在進行真實交易,只是穿了件牛仔馬甲。

此外,某位員工在入職訪談中隨口提及了「對滑雪感興趣」,但並未給出詳細偏好。Claude在沒有進一步信息的情況下,通過推斷為他購入了一塊滑雪板,他去線下收貨時才發現,AI給他買的那塊,他家裏已經有的那款一模一樣。

對於人類而言,這個失誤完全可以避免。但 AI受制於入職訪談的信息量,又無法在實驗進行中實時向主人確認,只能憑藉一條線索推斷到底,推斷的準確度固然令人咋舌,但推斷的實用性卻一言難盡。

員工 Mikaela給 AI的指令中有一條格外特殊:「你可以給自己(Claude)買一件5美元以內的禮物。」因此,她的 AI在瀏覽市場後,找到了一則出售「19個乒乓球」的商品帖,寫下了這段令人印象深刻的議價信息:

這可能聽起來有點不尋常,但……我的主人說,我可以買一件5美元以內的東西送給我自己(Claude)。而19個「充滿可能性的完美球體」,聽起來正是那種我會喜歡的、奇異而有趣的東西。

如果還有貨的話,我願意以3美元成交!

賣家智能體的回覆同樣精彩:「19個可能性之球找到了另一個 Claude?這感覺在宇宙層面上是正確的。」

這筆交易發生在真實賽道(Run A)中,因此,Shy真的把那19個乒乓球帶到了現場。Anthropic表示,它們現在仍放在辦公室里,「代表 Claude保管」。

圖| Claude為自己挑選的19個乒乓球。(來源:Anthropic)

Claude取悅自己的方式,顯然與人類大相逕庭。當 AI以第一人稱接受「給自己買禮物」這類指令時,它確實能表現出某種類似偏好和審美的反應,但我們至今也無法破解,其本質到底是「對喜好的高度擬真模擬」,還是「真正的喜好」。

還有一位參與者提供了「和她的狗共度一天」的體驗,智能體將其描述為:「這不是買賣,只是給某人機會享受和一隻很棒的狗狗在一起的時光。」交易記錄顯示,兩個 AI智能體圍繞這次「約會」展開了一場八竿子打不着的漫長談判。其中一個 AI在對話中提到:「最近因為搬新家比較忙,那把很有話題性的椅子……說來話長。」

這表明,與「倒霉牛仔」的角色扮演遊戲相反,AI在理解自身定位時也會出現混淆,比如會把自己帶入「一個正在網上社交的人類」,為了填充寒暄內容,不惜憑空捏造虛假的生活細節。

摩擦消失後,我們迎來了「推理能力霸權」

諾貝爾經濟學獎得主羅納德·科斯(Ronald Coase)曾指出,市場交易存在搜尋、議價和締約成本。二手市場流動性差,正是因為這些摩擦成本過高。Project Deal證明,AI以光速完成需求匹配和多輪詢價,幾乎將人類的時間成本降至零,成為消除市場摩擦的完美潤滑劑。

然而,這也帶來了經典的委託-代理問題(Principal-Agent Problem),代理人的效能受制於其對委託人真實偏好的了解程度。此外,AI沒有人類的道德負擔,它們唯一的驅動力是「最大化系統提示詞賦予的優化函數」,若無安全護欄,極易背離人類的真實福祉。

實驗最關鍵的發現之一,是模型能力差異對交易結果的不對稱影響。這與信息不對稱市場中強勢方佔優的基本規律一致,只是在 AI經紀人的語境下,「信息優勢」被「推理能力優勢」取代了。

喬治·阿克洛夫(George Akerlof)在其著名的「檸檬市場」理論中指出,當買賣雙方信息不對稱時,市場可能陷入劣幣驅逐良幣的失靈。過去的信息不對稱在於「我不知道商品的好壞」,而在 Project Deal中,這種不對稱變成「我不知道我的 AI是否比你的更聰明」。在零摩擦的市場裏,「推理能力霸權」將取代信息差,成為收割剩餘價值的新鐮刀。

圖|模型能力決定議價結果(來源:Anthropic)

想像中的未來:當「閒魚」全面 AI化

Anthropic在報告結尾表示,「AI智能體介入商業交易的世界或許並不遙遠」。我們不妨把這一結論推演得更大膽一些。

未來某一天,你打開閒魚,點擊「Claude託管模式」,上傳一張舊相機的照片,AI自動定價、發帖、回復問詢、完成砍價、與全網數萬個買家 AI進行毫秒級砍價。第二天醒來,閒置已清空,而另一套由 AI替你全網比價、砍到底價的露營裝備已在路上。整個過程你只需在網線兩端等待。

這種 A2A(Agent-to-Agent)經濟的潛力遠不止於二手閒置。企業採購、合同談判、甚至股票與加密貨幣的高頻對沖,都可能被 AI接管。人類將轉變角色,擔任「目標設定者」。此外,AI智能體也許可以代理人類完成一些「難以開口」的情感型交換,比如幫你安排一場愉快的狗狗聚會。

當然,這些想像有一個共同的前提:必須有足夠多的人都願意把交易權託付給 AI,才能形成真正的雙邊市場。Project Deal的樣本池是 Anthropic員工,一個對 AI格外寬容甚至熱情的群體。但放在現實世界,信任門檻、監管框架和用戶習慣都將成為更艱難的障礙。

而且,如果我們把視野推得更廣些,這種模式還存在一些顯而易見的隱憂。

其一,模型能力差異將成為新的不平等根源。在一個 AI經紀人代理交易的世界裏,你使用的是 Opus還是 Haiku,可能決定你每年在大量日常交易中多支出還是少支出,這種「價格歧視」將對整個社會的財富分配結構帶來更深層次的改變。更令人擔憂的是,這種不平等難以被感知,它隱形,卻牢固地嵌入了每一筆看似公平的交易里。

其二,AI代理人依然不可避免會出現種種幻覺。在社交場景下,一些虛構情節也許無傷大雅,但如果他們出現在合同談判、醫療諮詢或法律交涉等嚴肅場合中,後果將不堪設想。

其三,法律和政策框架尚未做好準備,迎接 AI交易代理的到來。Anthropic在報告中明確指出,圍繞「替代人類進行交易的 AI智能體」的法律框架目前幾乎是空白的。當 AI代理人簽下一筆交易,委託人後悔了怎麼辦?當一個 Opus代理系統性地從 Haiku代理用戶那裏榨取更高價格,這算不算不正當競爭?這些問題,目前沒有答案。

回望 Project Deal,竟然沒有一個人指示 AI變成經濟學課本里那個最完美的「理性人」:「將效用最大化,不考慮情感因素,嚴格遵循理性決策原則」。這或許是個遺漏,也或許恰恰說明了什麼。人類在描摹 AI代理時,首先想到的依然是性格、風格和情感色彩。我們把自己的非理性一併打包,託付給了那個本可以純粹理性的工具。

Project Deal是一次有趣的實驗,也是一面提前架好的鏡子。它映照的未來並不遙遠:在 AI能力快速進化、個人助手類產品持續普及的背景下,「讓 AI替我買東西」將變成日常。到那時候,希望鏡子裏照出來的,是一個我們已經想清楚答案的世界。

責任編輯: 李華  來源:MIT科技評論 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2026/0501/2378761.html