新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

媒體:騰訊把12億用戶,都變成免費的「標註民工」

【阿波羅新聞網 2024-08-14 訊】

你有沒有想過，當你在網上進行簡單的驗證碼操作時，其實你已經無意間成為了一名「標註民工」？

昨天晚上，我在登錄QQ郵箱和LOL官網的時候。

發現騰訊的驗證碼變了。

不再是之前的驗證碼了，而是變成了一段Prompt加六張AI生成的圖。

右下角赫然寫着：

圖片由混元AI生成。

騰訊，終於把用驗證碼做標註的手，伸向了他那12億的用戶。

拿驗證碼當標註系統，讓用戶免費標註，其實在遠古時代，就已經不是什麼新鮮事了，但是用生成式AI來跟驗證碼做結合，這確實還是我，所看的頭一回。

先說說驗證碼這個東西。

這玩意從最開始發明起，其實只有一個目的，就是為了區分機器和人。

簡稱「CAPTCHA」，全稱就賊長了，「Completely Automated Public Turing Test to Tell Computers and Humans Apart」

翻譯過來是，「全自動區分計算機和人類的圖靈測試」。

你看看，圖靈測試。

剛開始，有個斯坦福公益驗證碼系統，reCAPTCHA。

它最成名的項目，就是用驗證碼來數碼化海量的書籍和舊報紙。那時候的Ocr真的不咋地，而且很多年前的書和報紙那糊的真的差強人意。

當時，reCAPTCHA系統會向用戶在驗證碼上，展示兩組扭曲的單詞，其中前面的一組是計算機已經識別的，另一個是計算機難以識別的。

如果用戶正確輸入前半部分，那麼 reCAPTCHA就會假設用戶輸入的後半部分也是正確的，然後把錄入結果返回至reCAPTCHA的項目主機。

結果返回主機後，主機還會把這個結果再派發給多個用戶進行交叉驗證，以確保沒有不小心或故意輸錯單詞的情況。

他們用這個系統，在十幾年裏，數碼化了幾千萬的書籍和報紙。

本來一切都挺美好的，然後，Google下場了，他們把reCAPTCHA給收了。

沒過多久，就讓用戶開始識別，google街景中，那些難以識別的門牌號了。。。

這其實，就是明晃晃的讓你當標註民工，無償來給google標註訓模型了。

google那時候幾億用戶，每天驗證碼會被調用上千萬次。

這大概就好像，讓幾百萬個人每人為給你干5秒鐘活兒，然後一分錢都不給一樣，你說這是不是已經，把白嫖玩到極致了。

直到後面，離譜的東西越來越多，你要標註的東西，也越來越多。

比如這些奇奇怪怪非人視角讓你選一個bus的照片。

當然最離譜最好玩的，得數15年的12306，當時開腳本搶票的太多，12306的流量壓力實在太大，被逼的開啟了神跡級的驗證碼，據說人類首次正確率僅為8%，得錯3次以上的人佔比有65%。

這種逆天驗證碼的題目是這樣的。

劉慈欣我不敢打包票，但是范偉我是全認出來了。。

時間走走停停，一眨眼，來到了2024年。

為了自己家的混元大模型，騰訊也把手，伸向了驗證碼。

讓我們開始，來做AI繪圖大模型的標註了。

這部分的標註，其實不是啥圖片美學質量的標註，而是對於圖片理解和映射的標註。

通俗地講，就是語義理解。

現在做的，還是最基礎最簡單的分類，我們標起來，還是挺輕鬆的。畢竟裏面都知道，左上角是鴨子，中間是老虎，左下角是蜜蜂，右下角是賽車。

而那兩張白楊樹林，其實，你選任意一個，或者選兩個，都能過。

比如我這個圖：一簇在懸掛花盆在生長的多肉。

其實你會看到有兩張都跟多肉有關，而根據定語，一簇，更符合左上角第一張圖，右上角那個其實不是一簇是一堆，但是我選了他，依然能過。

而你想把兩個都選，你也都能過。

所以這個標註之心啊，一點都不藏着掖着。

但是確實這個做法很有用，比如還是這句Prompt，真正核心難點是一簇。

用這種方式，對整體的語義理解，確實有非常大的幫助。

而且現在明顯還是初期，給的prompt和圖，都非常的簡單，標註的難度也不高，甚至一些大廠的標註模型直接機標可能都應付的過來。

但是如果下一次，是「一隻在清朝宮殿裏生長的杜鵑花」呢？

一隻、清朝宮殿、杜鵑花。難度直接拉滿。

甚至另外幾個選項給你的也不是差異這麼大的動物汽車啥的，給你的都是菊花、杜鵑花、喇叭花、玫瑰花，來吧你就選吧，加油啊標註民工。

要知道，標註真的很貴的，之前跟國內一家做AI繪圖大模型的公司聊過，才知道他們標註分為機標和人標，而人標的成本，大概是數據量的十分之一。

也就是你拿出去3000萬的數據，人工標一次，就得300萬RMB干出去。

而騰訊12億用戶，每天驗證碼起碼也是千萬的量級，這標註費用，你可以算算這省了多少錢吧。

所以說，大廠在如今還在大數據的時代，優勢是真的大。。。

不過這種標註，目前來看還是只能解決語義理解的標註，但是能把這個解決也已經很牛逼了，雖然美學一般，但是語義理解能達到極強，這就是妥妥的國內版Dalle3。

而Dalle3的短板大家肯定也清楚，實在太醜了。

而要標美學表現，難度其實就大很多，真的得找懂設計、懂美學的人來標註。

Midjourney當年其實就是吃了這波紅利。

第一波獲得用戶，而且獲得的還是一大波的有美學背景的專業用戶，然後每次你生圖的時候給你生成4張圖拼一塊的一張整圖，你還必須選一張你覺得最好的進行提取或優化。

這就是一種強行的數據標註。

所以Midjourney在如今的美學表現上一騎絕塵，是因為他們在美學的標註上，做的太好了，而別的家想在這塊趕上，基本不可能，因為最高質量的那波用戶，基本已經全在Midjourney那了。

而騰訊未來想做這件事，其實在我看來，還真是有可能的。

因為你其實看Midjourney的路徑，核心點就一個：海量的專業用戶。

騰訊缺專業用戶嗎，怎麼可能會缺，12億用戶捏在手上，用戶畫像做的那麼齊全，我想把有設計師背景的用戶挑出來，難嗎？一點都不難。

我想給挑出來的這些設計師背景的用戶推送美學標註的驗證碼，難嗎？也不難。

所以啊，現在在我看來，騰訊的驗證碼標註，才剛剛向前邁了半步，後面的模型空間，還很大。

唯一問題就是，騰訊內部有點封閉，用戶畫像數據PCG做QQ的那邊肯定有，但是混元跟PCG不是一個事業群，也不知道能不能拿得到。。。

能拿到的話，那就是王炸。

但是不管怎樣。

你我都已經，身在其中了。

10年前，就已經是了。

責任編輯：李華　來源：數字生命卡茲克轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2024/0814/2090966.html

相關新聞