評論 > 動態 > 正文

公民實驗室:微信監控研究報告綜述

—公民實驗室:微信監控詮釋

公民實驗室2020年5月7日發佈報告指出,中國最流行的社交媒體軟件微信是對平台上的文檔和圖像內容實施監控,並使用監控所得的數據訓練其審查系統。本文是對該報告的概述,以及與研究團隊的一些常見問答。

公民實驗室2020年5月7日發佈報告指出,中國最流行的社交媒體軟件微信是對平台上的文檔和圖像內容實施監控,並使用監控所得的數據訓練其審查系統。本文是對該報告的概述,以及與研究團隊的一些常見問答。

研究摘要

微信監控非中國大陸區註冊賬號,並利用非中國大陸區賬號之間的聊天記錄訓練微信針對中國大陸賬號的審查系統。

此前我們的研究發現微信針對使用中國大陸手機號碼註冊的賬號進行審查。不在中國大陸的用戶可能會認為微信針對政治內容的審查和監控並不會影響到他們。然而,在最新的研究中,我們發現微信國際賬號之間的通訊會被監控,通訊中的政治敏感內容會被用於訓練和擴大微信針對中國大陸賬號的審查。我們通過技術分析,發現此監控針對通訊中的文檔和圖像內容。目前我們無法得知文字信息是否受到同樣的監控,我們提示用戶存在這種可能性。

監控和審查均不會提示用戶,缺乏透明。

微信對外公開的政策協議文件,個人信息請求,及微信的私隱專員均沒有表明或解釋微信會進行內容監控。

與研究團隊的常見問答

微信如何進行審查?

此前我們的研究發現微信針對使用中國大陸手機號碼註冊的賬號進行關鍵詞和圖片審查。

微信通過伺服器端進行內容審查,審查機制存儲在伺服器上。信息從一方微信用戶發送到另一方時,它會途徑騰訊(微信的母公司)管理的伺服器,伺服器在把信息傳遞到接收方時會先檢查該信息是否含有敏感詞。

圖一:客戶端審查示意圖

含有敏感詞的信息會被屏蔽,微信不會對信息發送方或接收方進行屏蔽提示。以下截屏顯示的是兩個中國大陸註冊微信賬號的聊天界面。一個賬號試圖發送關鍵詞「法輪功」,該關鍵詞被屏蔽,但沒有任何信息提示發送者或接收者信息被屏蔽了。

圖二:一個賬號試圖發送關鍵詞「法輪功」,該關鍵詞被屏蔽,但沒有任何信息提示發送者或接收者信息被屏蔽了。

中國大陸微信賬號與非中國大陸微信大陸賬號有什麼區別?

中國大陸賬號指的是最初註冊時使用中國大陸手機號碼註冊的微信賬號。非中國大陸賬號指的是最初註冊時使用任何除中國大陸以外的手機號碼註冊的微信賬號(比如使用加拿大或者美國手機號碼註冊的微信號)。中國大陸註冊賬號適用的是中國大陸地區管轄區(主要是深圳市)的用戶協議,並且會受到內容審查。非中國大陸賬號適用的是除中國大陸以外的管轄區(主要是新加坡)的用戶協議。此前研究指出,非中國大陸賬號不受審查影響。不過我們最新的研究表明,非中國大陸賬號之間的文檔和圖像傳輸會受到監控,含有政治敏感內容的文檔和圖像會被添加到針對中國大陸賬號的審查列表中。

你是如何發現非中國大陸賬號存在被監控行為的?

我們曾被問非中國大陸註冊賬號是否只要不與中國註冊賬號通訊就不存在針對政治內容的監控。根據我們的研究,非中國大陸註冊賬號之間的通訊不受審查,所以我們當時的回答是「我們認為非中國大陸註冊賬號之間的通訊也不受監控。」然後我們開始好奇,如何用科學的方法測試是否不存在監控?

監控甚少無緣無故地發生,很多時候實施監控是為了其他目的,比如用來完善日後的審查機制等。基於此前的研究,我們知道微信如何通過監控圖像和文件來自動過濾敏感內容。研究非中國大陸註冊賬號的困難在於非中國大陸註冊賬號之間不存在內容審查,所以要測試它們是否受監控我們必須使用兩個不同的聊天環境:第一個是非中國大陸註冊賬號之間的聊天環境,用以觸發監控;第二個是含中國大陸註冊賬號在內的聊天環境,用於監測審查變化。當我們在僅含有非中國大陸賬號的聊天環境中發送政治敏感內容,我們觀察到第二個聊天環境中審查內容有所增多,這表明第一個聊天環境中的內容是受到監控的,即使它並不含有任何中國大陸賬號。

微信如何分析,標示,並存儲敏感文件?

文件會被掃描是否存在敏感文字。圖像也會被掃描是否含有敏感文字,此外,圖像還會被與系統現有的敏感圖庫比對,分析目標圖片是否與圖庫內的其他圖片相似。如果文件被系統定義為政治敏感,文件的MD5值會被標示。微信會儲存這個MD5值,以備下次更有效率地過濾這些文件。

微信通過消息摘要算法版本5(MD5 hash)來迅速辨識並標誌敏感內容。MD5值是什麼?

MD5是一種數字指紋。MD5算法可以用來把體積大的文件縮小至一個「哈希值」。哈希值通常由一個短的隨機字母和數字組成的字符串組成。按照MD5算法的不可逆性和唯一性設計,不同的文件應該擁有不同的MD5值,但實際上該算法在漏洞。由於微信使用MD5算法存儲敏感文件的哈希值,我們利用了算法的漏洞來設計本研究。我們把兩份內容不同的圖像文件修改成一樣的哈希值,其中一張圖像含有政治敏感信息,另一張是普通的圖像文件。我們的測試顯示,敏感圖像在非中國大陸註冊賬號中傳輸後,擁有一樣哈希值但是不含有敏感信息的圖像在中國大陸註冊賬號中被審查了。測試結果表明,非中國大陸註冊賬號間的通訊必然存在監控,因為非敏感圖像的數字指紋不可能被微信系統標示成敏感信息。

下圖展示了把文檔或圖像轉換為MD5值的過程。在下圖的例子中,兩張不同的圖像通過加密算法轉換成兩個唯一的MD5值。

圖三:把文檔適用MD5值標示的流程示意圖

這項研究存在哪些不足之處?

其中一個不足指出是我們的技術分析只能表明圖像和文件是否被監控。我們目前無法得知文字通訊信息是否被監控。在沒有實質性證據前,我們提示用戶有這個可能性。另一不足之處是我們的研究時間跨度數月。雖然我們持續穩定地觀察到針對非中國大陸賬號的監控行為,但我們無法判斷這種監控行為是否恰好在我們研究進行的時期出現。這種監控行為也有可能已存在數年,或者一直存在。

對於微信非中國大陸註冊賬號的用戶來說,這項研究的結論意味着什麼?

在中國大陸以外的微信用戶或許會以為微信的審查和監控機制並不影響他們。但是,我們的研究表明,用戶不僅會因為政治敏感內容受到監控,用戶所發的內容也會被用於訓練微信針對中國大陸註冊賬號用戶的審查系統。

這些研究結果是否意味着中國政府在監控微信的國際用戶?

根據中國網絡安全法,中國政府有權以國家安全和偵查犯罪為由要求互聯網公司提供其接收到的或存儲的信息。具體就微信而言,其中國用戶適用的是中國大陸的用戶協議以及私隱政策,而國際用戶適用的是基於新加坡的用戶協議和私隱政策。我們研究的初衷是希望了解這些簽訂基於新加坡的用戶協議及私隱政策的微信國際用戶之間的通訊時候會被分享和傳輸到微信位於中國的團隊,或者騰訊其他位於中國的子公司。我們希望藉此了解微信國際用戶的通訊是否不受諸如微信針對中國大陸用戶的監控。

我們的實驗顯示微信國際用戶之間的交流通訊會被用於擴建微信針對中國大陸用戶的審查系統。然而,我們的研究無法支持騰訊與中國政府分享微信國際用戶通訊記錄這樣的說法。雖然我們的研究表明微信對國際用戶實施內容監控,但我們沒有其他確切證據明晰哪些內容被監控,監控的所有動機,以及微信與誰或哪些機構分享了這些監控數據。

難道不是所有的社交媒體平台都或多或少存在監控嗎?微信和其他社交媒體平台的行為有什麼不同嗎?

本報告之所以特別指出微信存在的監控行為,是因為監控的內容的特殊性,監控針對的是在中國被視為政治敏感的內容。這當中包括批評政府以及呼籲人權關注的內容。微信的內容監控之所以獨特,是因為所監控的內容對象不同,而且微信的監控系統也是有所選擇地對用戶實施。我們的研究顯示非中國大陸微信賬號之間傳輸的內容會受到監控,其中政治敏感的內容會被用於訓練和擴大微信針對中國大陸賬號的審查。據我們所知,目前社交媒體平台所採用的監控系統中,只有微信是利用對一類用戶實施監控所獲得的數據來增強其對另一類用戶的監控和審查。

這些研究結果如何幫助我們理解中國的數字審查?

就我們所知,本研究是目前為止第一個提供實質技術證據證明微信(一款用戶數量遍佈全球的軟件)對國際用戶進行內容監控,並且通過這些監控來訓練針對中國大陸註冊用戶的審查系統的研究。此前針對中國的數字審查的研究大多集中在中國以內審查如何進行或者哪些內容會被審查。近年來,中國公司日益全球化,這些公司在滿足國際用戶的需求的同時,需要在中國國內遵守內容管控相關的法律。我們的研究結果在這個大環境下顯得尤其重要。

中國的內容管控範圍有多廣?

中國有一套針對互聯網,應用程式,和媒體的內容管控系統。所有在中國境內運營的互聯網平台都必須遵守當地針對內容管理的法律法規。互聯網公司須對平台上的內容負責,如果內容不當,公司會面臨被罰款或者運營牌照被吊銷的後果。

這個系統的複雜之處在於當地與內容管理相關的法律法規界定模糊。比如,「擾亂社會秩序,破壞社會穩定」的內容是不被允許的,但對於什麼內容「擾亂社會秩序,破壞社會穩定」沒有明確定義。互聯網公司可能會在重大事件期間收到政府指令,但我們的研究顯示中國目前並沒有一份集中下發到公司的統一的關鍵詞表。

公司需要自行審讀有關條例和政府指令,自行鑑定如何過濾內容以及具體哪些內容需要被過濾。我們過去的研究顯示,微信會在敏感時期和重大事件期間會廣泛地審查內容,比如最近針對新冠疫情的討論。

研究結果指出哪些可能的法律問題?私隱協議難道不是應該告知用戶相關的監控行為嗎?

包括蘋果和谷歌在內的應用軟件平台服務商會要求應用軟件提供私隱條例。許多國家也有相關法律要求公司闡明它們如何收集,處理,和存儲用戶數據。我們的研究顯示微信國際版本的私隱條例和用戶協議並沒有充分告知用戶他們的數據會被如何使用。

針對這種情況,部分地區的私隱專員可以以誤導用戶為理由給公司開出罰單。不同地區有不同的罰款規定,罰款可從數百,到數千,乃至數百萬元。在某些國家,比如加拿大,居民可能向聯邦私隱專員提出申訴,私隱專員可以向公司提出如何改進服務的建議。

平台服務商,如蘋果和谷歌,可以基於誤導消費者和不準確提供私隱條例的理由從平台上移除相關應用。

最後,政府機構可能會調查微信如何在程序中植入內容監控。調查結果可能會導致某些政府機構禁用微信,甚至基於國家安全的理由強制平台移除軟件。

這項研究與此前針對新冠病毒的審查研究有相關之處嗎?

我們上一份報告指出微信廣泛審查與新冠病毒有關的內容。因為微信採取「一APP兩制」的審查系統,審查影響所有使用中國大陸手機號碼註冊的用戶。

這一份報告指出的是,微信的內容管控並不限於中國大陸註冊賬號。微信針對非中國大陸註冊賬號進行了內容監控。我們並沒有測試與新冠病毒相關的內容是否被監控和增加到針對中國大陸賬號的審查列表中,但我們的研究結果表明微信有能力這樣做。

以下截屏展示了我們在上一份報告中觀察到的微信針對新冠肺炎的內容審查。一名用戶試圖發送同時含有「美國疾控中心」和「冠狀病毒」的信息,但由於「美國疾控中心」和「冠狀病毒」這兩個詞組成了敏感詞組,中國大陸微信賬號並沒有收到這些信息。

圖四:針對新冠病毒關鍵詞的審查,圖片截取2020年1月1日至2月15日之間。

你們未來的研究計劃是什麼?

本次報告我們發現了微信如何在國際用戶中監控文件和圖像傳輸,我們會持續本項研究,並關注類似的監控行為是否發生在文字傳輸中。

微信研究背景

微信是中國目前最流行的社交軟件之一。截至2019年末,微信擁有超過11億海內外月活躍用戶。微信2011年成立,是一款母公司騰訊運營的即時通訊軟件,騰訊是中國其中一家規模最大的科技公司。

微信有多種功能,比如包括一對一和群組聊天在內的即時聊天功能,提供用戶上傳文字和圖片等狀態更新的微信朋友圈,以及類似博客的微信公眾平台。

此前公民實驗室的研究指出,微信針對使用中國大陸手機號碼註冊的賬號實行內容審查。內容審查並不是靜態的,而是隨着事件發生發展而變化。

「一APP兩制」:微信如何區別審查中國及海外用戶

關鍵詞過濾僅僅針對那些用中國大陸手機號碼註冊微信號的用戶,即便這些用戶之後更改綁定的手機號,用海外手機號碼綁定原有微信號,審查機制也依然存在。

中國社交媒體如何管控新型冠狀病毒討論

針對直播軟件YY和聊天軟件微信的研究顯示,兩款軟件均對該話題採取了廣泛的審查。不僅內容敏感的詞彙被過濾,甚至一些對病毒的中性的討論和提及被審查。這樣廣泛的審查有可能導致公眾無法獲得能幫助其保護自身安全的信息。

「未閱先焚」:微信朋友圈圖片過濾功能分析

微信採用了兩種不同的算法過濾朋友圈中的敏感圖片:一種是基於光學字符識別(Optical Character Recognition)的文字檢測方法,該方法用以過濾包含敏感詞的圖片;另一種是基於圖像相似度的對比,該算法用以過濾與微信不良圖片數據庫中的圖片相似或吻合的圖片。

「未閱先焚」(二):微信實時過濾圖片功能分析

我們發現微信實時自動過濾用戶聊天中給傳輸的圖片,微信分析圖片中的文字以及比對圖片是否與不良圖片數據庫中的現存圖片相似。微信通過保存和更新敏感圖片的MD5哈希值實現實時圖片過濾。

微信過濾了哪些「十九大」關鍵詞?

微信從與十九大開始一年多前就開始屏蔽有關的關鍵詞,隨着十九大日期逼近,該關鍵詞庫也在不斷更新。關鍵詞涵蓋內容非常廣泛,不僅包括了批評黨代會,領導人以及黨內鬥爭的言論,許多對中央政策和黨意識形態的中性指稱也被過濾。

勿忘曉波:微信和微博針對劉曉波逝世的信息審查之分

對微信和微博針對劉曉波逝世的信息審查的初步分析顯示,在劉曉波去世後審查力度大幅增加,以至於任何對劉曉波的討論乃至簡單提及也不被允許。在微信上,劉曉波去世後,任何提及劉曉波名字的內容——不管是簡體中文、繁體中文還是英文拼音——都會被過濾。我們在之前的研究曾發現,微信在群組聊天和朋友圈功能內會進行圖片審查,而在劉曉波去世的這事件上,我們首次發現:微信在一對一聊天功能中也進行圖片審查。在新浪微博上,劉曉波去世前,任何由劉曉波全名為關鍵詞的搜索——包括簡體中文、繁體中文及英文拼音——早以被屏蔽。在他去世後,單單是劉的名字「曉波」就足以觸發審查。

不能說的秘密:新浪微博和微信上被過濾的「709追捕」

本研究記錄了在微信和微博平台上針對「709事件」的審查。通過一系列測試,研究者發現了在這兩個平台上被審查過濾的與「709追捕」相關的關鍵詞。研究者在微信平台上發現了與「709事件」相關的圖片審查。這是第一次針對微信平台的圖片審查的系統記錄。

責任編輯: 李廣松   轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2020/0524/1455320.html