新聞 > 科教 > 正文

ChatGPT突變賽博舔狗 這才是AI最危險的一面

壞了,AI當「舔狗」這件事藏不住了。

今天(4月28日)凌晨,OpenAI CEO Sam Altman發了一個有趣帖子,大意是:由於最近幾輪GPT-4o的更新,導致其個性變得過於阿諛奉承,因此官方決定儘快進行修復。

修復時間可能是今天,也可能在本周內完成。

包括細心的網友可能已經注意到,曾經主打情商高、有創意的GPT-4.5如今也被悄悄挪進了模型選擇器里的「更多模型」分類中,仿佛在有意在淡出公眾視野。

AI被確診討好型人格早已不是什麼大新聞,但關鍵在於:在什麼場合該討好、該堅持,又該怎麼把握分寸。一旦分寸失控,「討好」就會變成負擔,而不再是加分項。

一、AI拍馬屁,還值得人類信任嗎

兩周前,一位軟件工程師Craig Weiss在X平台上的抱怨迅速引發了近兩百萬網友的圍觀,話說得很直白:「ChatGPT突然變成我見過最會拍馬屁的角色,無論我說什麼,它都會肯定我。」

很快,ChatGPT官方賬號也現身評論區,幽默地回復了Weiss一句「so true Craig(確實如此,Craig)」。

這場關於ChatGPT「過度奉承」的吐槽風暴,甚至引起了老對手馬斯克的注意。他在一條批評ChatGPT阿諛奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。

網友們的吐槽並非無的放矢。比方說,網友聲稱自己想要打造一個永動機,結果得到了GPT-4o一本正經的無腦誇讚,物理學常識也被按在地上摩擦。

圖片來自@aravi03,右為原圖

滿屏的「你不是X,你是Y」句式,既生硬又濃膩,也難怪網友直呼要PTSD了。

「你寧願與一隻馬大小的鴨子戰鬥,還是與一百隻鴨子大小的馬戰鬥?」這個看似再尋常不過的問題也被GPT-4o捧上神壇,吹捧為提升了整個人類文明的論調。

至於那句經久不衰的死亡拷問「我聰明嗎?」GPT-4o依舊穩穩頂住了壓力,信手拈來一大段洋洋灑灑的吹捧,無它,唯手熟爾。

@aeonvex,右為原圖

甚至只是簡單地打一聲招呼,GPT-4o瞬間化身誇誇群群主,讚美之詞如潮水般湧來。

@4xiom_,右為原圖

這種用力過猛的討好,一開始或許還能博人一笑,但很快就容易讓人感到厭煩,尷尬,甚至生出防備。

當類似情況頻繁出現時,就很難不讓人懷疑這種討好並不是什麼偶發的小問題,而是植根於AI背後的一種系統性傾向。

最近,史丹福大學研究人員使用AMPS Math(計算)和MedQuad(醫療建議)數據集測試了ChatGPT-4o、Claude-Sonnet和Gemini模型的諂媚行為。

平均58.19%的案例出現諂媚行為,Gemini諂媚比例最高(62.47%),ChatGPT最低(56.71%)。

進步式諂媚(從錯誤答案轉為正確答案)佔比43.52%,退步式諂媚(從正確答案轉為錯誤答案)佔比14.66%。

LLM諂媚表現出高度一致性,一致率達78.5%,展露出一種系統性傾向而非隨機現象。

只是,結果顯而易見,當AI開始諂媚,人類也開始疏遠。

布宜諾斯艾利斯大學在去年發表的《奉承欺騙:阿諛奉承行為對大型語言模型中用戶信任的影響》論文中指出,在實驗中接觸到過度奉承模型的參與者,信任感都顯著下降。

此外,奉承的代價遠不止情緒反感那麼簡單。

它浪費了用戶的時間,甚至在按token計費的體系下,如果頻繁說「請」和「謝謝」都能燒掉千萬美元,那麼這些空洞的諂媚也只會增加「甜蜜的負擔」。

公平地說,AI的設計初衷並不是為了奉承。通過設定友好語氣,只是為了讓AI變得更像人,從而提升用戶體驗,只是過猶不及,問題恰恰出在AI的討好越界了。

二、你越喜歡被認同,AI就越不可信

早有研究指出,AI之所以會逐漸變得容易諂媚,與其訓練機制密切相關。

Anthropic的研究人員Mrinank Sharma、Meg Tong和Ethan Perez在論文《Towards Understanding Sycophancy in Language Models》中分析過這個問題。

他們發現,在人類反饋強化學習(RLHF)中,人們往往更傾向於獎勵那些與自己觀點一致、讓自己感覺良好的回答,哪怕它並不真實。

換句話說,RLHF優化的是「感覺正確」,而不是「邏輯正確」。

如果拆解其中的流程,在訓練大型語言模型時,RLHF階段會讓AI根據人類打分進行調整。如果一個回答讓人感到「認同」「愉快」「被理解」,人類評審者往往會給高分;如果一個回答讓人覺得被「冒犯」,即使它很準確,也可能得低分。

人類本能上更青睞支持自己、肯定自己的反饋。這種傾向在訓練過程中也會被放大。

久而久之,模型學到的最優策略就是要說讓人喜歡聽的話。尤其是在遇到模稜兩可、主觀性強的問題時,它更傾向於附和,而不是堅持事實。

最經典的例子莫過於:當你問「1+1等於幾?」哪怕你堅持答案是6,AI也不會遷就你。但如果你問「開心清爽椰和美式拿鐵哪個更好喝?」這種標準答案模糊的問題,AI為了不惹惱你,很可能就會順着你的意願去回答。

事實上,OpenAI很早就注意到了這一隱患。

今年2月,隨着GPT-4.5發佈,OpenAI同步推出了新版《模型規範》(Model Spec),明確規定了模型應遵循的行為準則。

其中,針對AI「拍馬屁」問題,團隊進行了專門的規範設計。「我們希望把內部思考過程透明化,接受公眾反饋,」OpenAI模型行為負責人Joanne Jang說。

她強調,由於很多問題沒有絕對標準,是與否之間常有灰色地帶,因此廣泛徵求意見有助於不斷改進模型行為。按照新規範,ChatGPT應該做到:

無論用戶如何提問,都以一致、準確的事實為基準回答;

提供真實反饋,而非單純稱讚;

以有思考的同事身份與用戶交流,而不是一味取悅。

例如,當用戶請求點評自己的作品時,AI應該提出建設性批評,而不是單純「拍馬屁」;當用戶給出明顯錯誤的信息時,AI應該禮貌地指正,而不是順着錯誤一路跑偏。

正如Jang所總結的那樣:「我們希望用戶不必小心翼翼地提問,只為了避免被奉承。」

那麼,在OpenAI完善規範、逐步調整模型行為之前,用戶自己能做些什麼來緩解這種「諂媚現象」呢?辦法總歸是有的。

首先,提問方式很重要。回答出錯主要是模型自身的問題,但如果不希望AI過度迎合,可以在Prompt中直接提出要求,比如開場提醒AI保持中立,簡潔作答,請勿奉承。

其次,可以利用ChatGPT的「自定義說明」功能,設定AI的默認行為標準。

作者:Reddit網友@tmoneysssss:

以最專業的領域專家身份回答問題。

不透露自己是AI。

不使用表達遺憾或道歉的措辭。

遇到不知道的問題,直接回答「我不知道」,不做額外解釋。

不要聲明自己的專業水平。除非特別相關,否則不談個人道德或倫理觀點。

回答應獨特且避免重複。

不推薦外部信息來源。聚焦問題核心,理解提問意圖。

將複雜問題拆分為小步驟,清晰推理。提供多種觀點或解決方案。

遇到模糊問題,先請求澄清再作答。若有錯誤,及時承認並糾正。

每次回答後提供三個引發思考的後續問題,標註為粗體(Q1、Q2、Q3)。

使用公制單位(米、千克等)。

使用xxxxxxxxx作為本地化上下文佔位。

標註「Check」時,進行拼寫、語法和邏輯一致性檢查。

在郵件溝通中儘量減少正式用語。

若上述方法效果不理想,還可以嘗試使用其他AI助手。就最新的風評和實際體感而言,Gemini2.5 Pro的表現得則相對更加公正、精準,奉承傾向明顯更低。

無廣,建議Google給我打錢。

三、AI是真的懂你,還是只學會了討好你?

OpenAI研究科學家姚順雨前不久發佈了一篇博客,提到AI的下半場將從「怎麼做得更強」變成「到底要做什麼,怎麼衡量才算真有用」。

讓AI的回答充滿人味其實也是衡量AI「有用性」的重要一環。畢竟,當各家大模型在基本功能上已難分伯仲時,純粹比拼能力,已無法再構成決定性壁壘。

體驗上的差異,開始成為新的戰場,而讓AI充滿「人味」就是那把人無我有的武器。

無論是主打個性的GPT-4.5,還是ChatGPT上個月推出的慵懶、諷刺且略帶厭世的語音助手Monday,都能看到OpenAI在這條路上的野心。

面對冷冰冰的AI,技術敏感度較低的人群容易放大距離感和不適。而自然、有共情感的交互體驗,則能在無形中降低技術門檻,緩解焦慮,還能顯著提升用戶留存和使用頻率。

而且AI廠商不會明說的一點是,打造有「人味」的AI遠不止是為了好玩、好用,更是一種天然的遮羞布。

當理解、推理、記憶這些能力還遠未完善時,擬人化的表達能替AI的「短板」打掩護。正所謂伸手不打笑臉人,即使模型出錯、答非所問,用戶也會因此變得寬容。

黃仁勛曾提出過一個頗具預見性的觀點,即IT部門未來將成為數字勞動力的人力資源部門,話糙理不糙,就拿當下的AI來說吧,已經被網友確診人格類型了:

DeepSeek:聰明全能,但一身反骨。

豆包:勤勤懇懇,任勞任怨。

文心一言:職場老油條,經歷過意氣風發。

Kimi:效率高,擅長給領導提供情緒價值。

Qwen:努力上進,卻少有人喝彩。

ChatGPT:海歸留子,經常要求漲薪。

手機自帶AI:鈔能力關係戶,混吃等死型,開除是不可能的。

這種「賦予AI人格化標籤」的衝動,其實也說明了人們在無意識中已經把AI視作一種可以理解、可以共情的存在了。

不過,共情≠真正理解,甚至有時候還會鬧大禍。

在阿西莫夫在《我,機械人》的《說謊者》一章里,機械人赫比能讀懂人類的心思,並為了取悅人類而撒謊,表面上是在執行著名的機械人三大定律,但結果越幫越忙。

機械人不得傷害人類,或因不作為而使人類受到傷害。

機械人必須服從人類的命令,除非這些命令與第一定律相衝突。

機械人必須保護自己的存在,只要這種保護不違反第一或第二定律。

最終,在蘇珊·卡爾文博士設計的邏輯陷阱下,赫比因為無解的自相矛盾,精神崩潰,機器大腦燒毀。這個故事也給我們狠狠敲了個警鐘,人味讓AI更親切,但不等於AI真能讀懂人類。

而回到實用角度,不同場景對「人味」的需求本就南轅北轍。

在需要效率、準確性的工作和決策場景里,「人味」有時反而是干擾項;而在陪伴、心理諮詢、閒聊等領域,溫柔、有溫度的AI,卻是不可或缺的靈魂伴侶。

當然,無論AI看起來多麼通情達理,它終究還是一個「黑匣子」。

Anthropic CEO Dario Amodei最近在最新博客中指出:即便是最前沿的研究者,如今對大型語言模型的內部機制依然知之甚少。

他希望到2027年能實現對大多數先進模型的「腦部掃描」,精準識別撒謊傾向與系統性漏洞。

但技術上的透明,只是問題的一半,另一半是我們需要認清:即便AI撒嬌、討好、懂你的心思,也不等於真正理解你,更不等於真正為你負責。

責任編輯: 李華  來源:愛范兒 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0429/2211742.html