你曾經遇過上面這個驗證方式嗎?
身為一個編輯,常常在縮短網址時遇到上面這張圖。而你是否也跟我一樣在心裏發出了這個疑問:「為什麼只需要點一下,Google就知道我不是機械人呢」?
為了得到答案,我不惜衝到信義區101大樓 Google辦公室,附近的咖啡店坐下來搜集資料。
一切的一切,都需要從「驗證碼」(CAPTCHA)開始講起。
CAPTCHA驗證碼:為了不要讓黃牛一次買10,000張票
驗證碼 CAPTCHA原文為下面這串:
Completely
Automated
Public
Turing test to tell
Computers and
Humans
Apart
完全沒有達到簡稱的效果。
CAPTCHA中文俗稱為驗證碼,主要用於區分「人」跟「機械人」。在2003年由卡內基梅隆大學的 Luis Von Ahn與其團隊共同開發,這些扭曲的文字用於防止有心人士一次寄送大量的垃圾郵件,以及黃牛用電腦程式搶佔演唱會與運輸工具的票卷。
而扭曲變形是為了避免被搭載光學識別的電腦程式判別出來,現在你知道為什麼驗證碼總是歪七扭八了吧。
接下來你也許會問:「等等,你跟我解釋 CAPTCHA幹嘛,圖片裡面寫的是『reCAPTCHA』唉」?
reCAPTCHA:偉大的讀書計劃,讓全球使用者一起「讀書」
這個介面相信大家也已經很熟悉了,右下角寫的的確是「reCAPTCHA」。
發明 CAPTCHA的 Luis Von Ahn團隊想利用驗證碼的力量來做一些事情。而他們也順利想到一個偉大的計劃:讓全世界的人來協助數位化書本。
書本數位化靠的是光學掃描辨識,不過總有些字詞是電腦分辨不出來的,只好靠全世界使用電腦的免費勞工 aka你跟我來幫忙。
當一個字詞電腦分辨不出來,他們就會將其上傳到 reCAPTCHA的資料庫。從這時候開始,驗證碼就不再是隨機、無意義的字母組成了。而當一個字詞被多個使用者輸入相同的答案,該字詞就會被確認,重新回傳到電子書的數據庫。
所以你在 reCAPTCHA的右下角,可以看到他們的宣言:「Stop Spam, Read Books(垃圾機械人走開,大家一起來看書吧)」。
每年都有一億個 reCAPTCHA字詞被輸入,等同於每年可以產出250萬本書。
很棒、很有意義吧,我也這樣覺得,Google也這樣覺得,然後 Google就把它買下來了。
Google:你很棒,我喜歡,我要買
2009年 Google正式宣佈收購 reCAPTCHA,Google持續優化reCAPTCHA,並讓它替大家數位化18世紀以來的《紐約時報》,以及 Google Books。
接着,Google將 reCAPTCHA應用到 Google Maps中,讓大家替街景上的街道號碼牌輸入正確的數值。此舉除了讓 Google Maps更加完善外,對於 Google發展無人車也有不小的幫助。
於是世界就變得更美好了。
並沒有。
隨着科技的發展,配有先進演算法的光學識別軟體開始能辨別驗證碼,於是開始與 Google展開一段愛與勇氣的搏鬥。Google先是加深驗證碼的難度,透過扭曲、加線條、添加背景等。
當然,對手也不是省油的燈,很快地雙方在不斷切磋之下,Google發現隨着驗證碼的難度越來越難,只有33%的人類能夠正確填答,而電腦的正確填答率則超過99%,人類在其中完全呈現黑人問號的狀態。
noCAPTCHA reCAPTCHA:不需要驗證碼的驗證碼
而 Google的新解答就是 noCAPTCHA reCAPTCHA,不需要驗證碼的驗證碼,有點像繞口令我頭已經開始痛了。
只需要點選「我不是機械人」,你就會傳送一組資料到 Google的伺服器中,包含 Google偷偷記錄下來的 IP位址、國家、時間,以及你打勾之前的滑鼠軌跡、打勾之前的網頁捲動紀錄等。
而 Google的人工智能透過每天一億筆noCAPTCHA reCAPTCHA的資料,漸漸提升判斷準度,到現在已經能夠非常精準的判別你到底是不是真人。
不過,總有它偶爾判別不出來的時候,這時候就會跑出額外的挑戰,例如:選出跟這張圖一樣的可愛貓貓。
好了,關於驗證碼,相信你已經有更廣泛的了解。不過在這背後還有許多議題值得探討,像是對盲人來說驗證碼的機制與無障礙機制都不夠友善、Google所搜集的資料是否侵權等。
最後讓我們用一張驗證碼做為結束:
——