你有沒有想過,當你在網上進行簡單的驗證碼操作時,其實你已經無意間成為了一名「標註民工」?
昨天晚上,我在登錄QQ郵箱和LOL官網的時候。
發現騰訊的驗證碼變了。
不再是之前的驗證碼了,而是變成了一段Prompt加六張AI生成的圖。
右下角赫然寫着:
圖片由混元AI生成。
騰訊,終於把用驗證碼做標註的手,伸向了他那12億的用戶。
拿驗證碼當標註系統,讓用戶免費標註,其實在遠古時代,就已經不是什麼新鮮事了,但是用生成式AI來跟驗證碼做結合,這確實還是我,所看的頭一回。
先說說驗證碼這個東西。
這玩意從最開始發明起,其實只有一個目的,就是為了區分機器和人。
簡稱「CAPTCHA」,全稱就賊長了,「Completely Automated Public Turing Test to Tell Computers and Humans Apart」
翻譯過來是,「全自動區分計算機和人類的圖靈測試」。
你看看,圖靈測試。
剛開始,有個斯坦福公益驗證碼系統,reCAPTCHA。
它最成名的項目,就是用驗證碼來數碼化海量的書籍和舊報紙。那時候的Ocr真的不咋地,而且很多年前的書和報紙那糊的真的差強人意。
當時,reCAPTCHA系統會向用戶在驗證碼上,展示兩組扭曲的單詞,其中前面的一組是計算機已經識別的,另一個是計算機難以識別的。
如果用戶正確輸入前半部分,那麼 reCAPTCHA就會假設用戶輸入的後半部分也是正確的,然後把錄入結果返回至reCAPTCHA的項目主機。
結果返回主機後,主機還會把這個結果再派發給多個用戶進行交叉驗證,以確保沒有不小心或故意輸錯單詞的情況。
他們用這個系統,在十幾年裏,數碼化了幾千萬的書籍和報紙。
本來一切都挺美好的,然後,Google下場了,他們把reCAPTCHA給收了。
沒過多久,就讓用戶開始識別,google街景中,那些難以識別的門牌號了。。。
這其實,就是明晃晃的讓你當標註民工,無償來給google標註訓模型了。
google那時候幾億用戶,每天驗證碼會被調用上千萬次。
這大概就好像,讓幾百萬個人每人為給你干5秒鐘活兒,然後一分錢都不給一樣,你說這是不是已經,把白嫖玩到極致了。
直到後面,離譜的東西越來越多,你要標註的東西,也越來越多。
比如這些奇奇怪怪非人視角讓你選一個bus的照片。
當然最離譜最好玩的,得數15年的12306,當時開腳本搶票的太多,12306的流量壓力實在太大,被逼的開啟了神跡級的驗證碼,據說人類首次正確率僅為8%,得錯3次以上的人佔比有65%。
這種逆天驗證碼的題目是這樣的。
劉慈欣我不敢打包票,但是范偉我是全認出來了。。
時間走走停停,一眨眼,來到了2024年。
為了自己家的混元大模型,騰訊也把手,伸向了驗證碼。
讓我們開始,來做AI繪圖大模型的標註了。
這部分的標註,其實不是啥圖片美學質量的標註,而是對於圖片理解和映射的標註。
通俗地講,就是語義理解。
現在做的,還是最基礎最簡單的分類,我們標起來,還是挺輕鬆的。畢竟裏面都知道,左上角是鴨子,中間是老虎,左下角是蜜蜂,右下角是賽車。
而那兩張白楊樹林,其實,你選任意一個,或者選兩個,都能過。
比如我這個圖:一簇在懸掛花盆在生長的多肉。
其實你會看到有兩張都跟多肉有關,而根據定語,一簇,更符合左上角第一張圖,右上角那個其實不是一簇是一堆,但是我選了他,依然能過。
而你想把兩個都選,你也都能過。
所以這個標註之心啊,一點都不藏着掖着。
但是確實這個做法很有用,比如還是這句Prompt,真正核心難點是一簇。
用這種方式,對整體的語義理解,確實有非常大的幫助。
而且現在明顯還是初期,給的prompt和圖,都非常的簡單,標註的難度也不高,甚至一些大廠的標註模型直接機標可能都應付的過來。
但是如果下一次,是「一隻在清朝宮殿裏生長的杜鵑花」呢?
一隻、清朝宮殿、杜鵑花。難度直接拉滿。
甚至另外幾個選項給你的也不是差異這麼大的動物汽車啥的,給你的都是菊花、杜鵑花、喇叭花、玫瑰花,來吧你就選吧,加油啊標註民工。
要知道,標註真的很貴的,之前跟國內一家做AI繪圖大模型的公司聊過,才知道他們標註分為機標和人標,而人標的成本,大概是數據量的十分之一。
也就是你拿出去3000萬的數據,人工標一次,就得300萬RMB干出去。
而騰訊12億用戶,每天驗證碼起碼也是千萬的量級,這標註費用,你可以算算這省了多少錢吧。
所以說,大廠在如今還在大數據的時代,優勢是真的大。。。
不過這種標註,目前來看還是只能解決語義理解的標註,但是能把這個解決也已經很牛逼了,雖然美學一般,但是語義理解能達到極強,這就是妥妥的國內版Dalle3。
而Dalle3的短板大家肯定也清楚,實在太醜了。
而要標美學表現,難度其實就大很多,真的得找懂設計、懂美學的人來標註。
Midjourney當年其實就是吃了這波紅利。
第一波獲得用戶,而且獲得的還是一大波的有美學背景的專業用戶,然後每次你生圖的時候給你生成4張圖拼一塊的一張整圖,你還必須選一張你覺得最好的進行提取或優化。
這就是一種強行的數據標註。
所以Midjourney在如今的美學表現上一騎絕塵,是因為他們在美學的標註上,做的太好了,而別的家想在這塊趕上,基本不可能,因為最高質量的那波用戶,基本已經全在Midjourney那了。
而騰訊未來想做這件事,其實在我看來,還真是有可能的。
因為你其實看Midjourney的路徑,核心點就一個:海量的專業用戶。
騰訊缺專業用戶嗎,怎麼可能會缺,12億用戶捏在手上,用戶畫像做的那麼齊全,我想把有設計師背景的用戶挑出來,難嗎?一點都不難。
我想給挑出來的這些設計師背景的用戶推送美學標註的驗證碼,難嗎?也不難。
所以啊,現在在我看來,騰訊的驗證碼標註,才剛剛向前邁了半步,後面的模型空間,還很大。
唯一問題就是,騰訊內部有點封閉,用戶畫像數據PCG做QQ的那邊肯定有,但是混元跟PCG不是一個事業群,也不知道能不能拿得到。。。
能拿到的話,那就是王炸。
但是不管怎樣。
你我都已經,身在其中了。
10年前,就已經是了。