新聞 > 科教 > 正文

媒體:騰訊把12億用戶,都變成免費的「標註民工」

你有沒有想過,當你在網上進行簡單的驗證碼操作時,其實你已經無意間成為了一名「標註民工」?

昨天晚上,我在登錄QQ郵箱和LOL官網的時候。

發現騰訊的驗證碼變了。

不再是之前的驗證碼了,而是變成了一段Prompt加六張AI生成的圖。

右下角赫然寫着:

圖片由混元AI生成。

騰訊,終於把用驗證碼做標註的手,伸向了他那12億的用戶。

拿驗證碼當標註系統,讓用戶免費標註,其實在遠古時代,就已經不是什麼新鮮事了,但是用生成式AI來跟驗證碼做結合,這確實還是我,所看的頭一回。

先說說驗證碼這個東西。

這玩意從最開始發明起,其實只有一個目的,就是為了區分機器和人。

簡稱「CAPTCHA」,全稱就賊長了,「Completely Automated Public Turing Test to Tell Computers and Humans Apart」

翻譯過來是,「全自動區分計算機和人類的圖靈測試」。

你看看,圖靈測試。

剛開始,有個斯坦福公益驗證碼系統,reCAPTCHA。

它最成名的項目,就是用驗證碼來數碼化海量的書籍和舊報紙。那時候的Ocr真的不咋地,而且很多年前的書和報紙那糊的真的差強人意。

當時,reCAPTCHA系統會向用戶在驗證碼上,展示兩組扭曲的單詞,其中前面的一組是計算機已經識別的,另一個是計算機難以識別的。

如果用戶正確輸入前半部分,那麼 reCAPTCHA就會假設用戶輸入的後半部分也是正確的,然後把錄入結果返回至reCAPTCHA的項目主機。

結果返回主機後,主機還會把這個結果再派發給多個用戶進行交叉驗證,以確保沒有不小心或故意輸錯單詞的情況。

他們用這個系統,在十幾年裏,數碼化了幾千萬的書籍和報紙。

本來一切都挺美好的,然後,Google下場了,他們把reCAPTCHA給收了。

沒過多久,就讓用戶開始識別,google街景中,那些難以識別的門牌號了。。。

這其實,就是明晃晃的讓你當標註民工,無償來給google標註訓模型了。

google那時候幾億用戶,每天驗證碼會被調用上千萬次。

這大概就好像,讓幾百萬個人每人為給你干5秒鐘活兒,然後一分錢都不給一樣,你說這是不是已經,把白嫖玩到極致了。

直到後面,離譜的東西越來越多,你要標註的東西,也越來越多。

比如這些奇奇怪怪非人視角讓你選一個bus的照片。

當然最離譜最好玩的,得數15年的12306,當時開腳本搶票的太多,12306的流量壓力實在太大,被逼的開啟了神跡級的驗證碼,據說人類首次正確率僅為8%,得錯3次以上的人佔比有65%。

這種逆天驗證碼的題目是這樣的。

劉慈欣我不敢打包票,但是范偉我是全認出來了。。

時間走走停停,一眨眼,來到了2024年。

為了自己家的混元大模型,騰訊也把手,伸向了驗證碼。

讓我們開始,來做AI繪圖大模型的標註了。

這部分的標註,其實不是啥圖片美學質量的標註,而是對於圖片理解和映射的標註。

通俗地講,就是語義理解。

現在做的,還是最基礎最簡單的分類,我們標起來,還是挺輕鬆的。畢竟裏面都知道,左上角是鴨子,中間是老虎,左下角是蜜蜂,右下角是賽車。

而那兩張白楊樹林,其實,你選任意一個,或者選兩個,都能過。

比如我這個圖:一簇在懸掛花盆在生長的多肉。

其實你會看到有兩張都跟多肉有關,而根據定語,一簇,更符合左上角第一張圖,右上角那個其實不是一簇是一堆,但是我選了他,依然能過。

而你想把兩個都選,你也都能過。

所以這個標註之心啊,一點都不藏着掖着。

但是確實這個做法很有用,比如還是這句Prompt,真正核心難點是一簇。

用這種方式,對整體的語義理解,確實有非常大的幫助。

而且現在明顯還是初期,給的prompt和圖,都非常的簡單,標註的難度也不高,甚至一些大廠的標註模型直接機標可能都應付的過來。

但是如果下一次,是「一隻在清朝宮殿裏生長的杜鵑花」呢?

一隻、清朝宮殿、杜鵑花。難度直接拉滿。

甚至另外幾個選項給你的也不是差異這麼大的動物汽車啥的,給你的都是菊花、杜鵑花、喇叭花、玫瑰花,來吧你就選吧,加油啊標註民工。

要知道,標註真的很貴的,之前跟國內一家做AI繪圖大模型的公司聊過,才知道他們標註分為機標和人標,而人標的成本,大概是數據量的十分之一。

也就是你拿出去3000萬的數據,人工標一次,就得300萬RMB干出去。

而騰訊12億用戶,每天驗證碼起碼也是千萬的量級,這標註費用,你可以算算這省了多少錢吧。

所以說,大廠在如今還在大數據的時代,優勢是真的大。。。

不過這種標註,目前來看還是只能解決語義理解的標註,但是能把這個解決也已經很牛逼了,雖然美學一般,但是語義理解能達到極強,這就是妥妥的國內版Dalle3。

而Dalle3的短板大家肯定也清楚,實在太醜了。

而要標美學表現,難度其實就大很多,真的得找懂設計、懂美學的人來標註。

Midjourney當年其實就是吃了這波紅利。

第一波獲得用戶,而且獲得的還是一大波的有美學背景的專業用戶,然後每次你生圖的時候給你生成4張圖拼一塊的一張整圖,你還必須選一張你覺得最好的進行提取或優化。

這就是一種強行的數據標註。

所以Midjourney在如今的美學表現上一騎絕塵,是因為他們在美學的標註上,做的太好了,而別的家想在這塊趕上,基本不可能,因為最高質量的那波用戶,基本已經全在Midjourney那了。

而騰訊未來想做這件事,其實在我看來,還真是有可能的。

因為你其實看Midjourney的路徑,核心點就一個:海量的專業用戶。

騰訊缺專業用戶嗎,怎麼可能會缺,12億用戶捏在手上,用戶畫像做的那麼齊全,我想把有設計師背景的用戶挑出來,難嗎?一點都不難。

我想給挑出來的這些設計師背景的用戶推送美學標註的驗證碼,難嗎?也不難。

所以啊,現在在我看來,騰訊的驗證碼標註,才剛剛向前邁了半步,後面的模型空間,還很大。

唯一問題就是,騰訊內部有點封閉,用戶畫像數據PCG做QQ的那邊肯定有,但是混元跟PCG不是一個事業群,也不知道能不能拿得到。。。

能拿到的話,那就是王炸。

但是不管怎樣。

你我都已經,身在其中了。

10年前,就已經是了。

責任編輯: 李華  來源:數字生命卡茲克 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0814/2090966.html