Reddit用戶逆向工程蘋果CSAM工具:發(fā)現(xiàn)算法早已存在
據(jù)外媒報道,本月早些時候,蘋果宣布將為其整個生態(tài)系統(tǒng)引入新的兒童安全功能。作為這項努力的一部分,這家位于庫比蒂諾的公司將通過使用設備上的機器學習來掃描iCloud和Messages應用上的內(nèi)容以此來檢測出可能存在的兒童性虐待材料(CSAM)。
在受到批評后,蘋果發(fā)布了一份六頁的文件以概述其使用設備上的機器學習和一種名為NeuralHash的算法來對抗CSAM的方法。
蘋果進一步表示,其CSAM檢測模塊正在開發(fā)中且只會掃描被標記為有問題的圖像。
然而在最新的進展中,一位好奇的Reddit用戶進入了蘋果隱藏的API并對NeuralHash算法進行了逆向工程。令人驚訝的是,他們發(fā)現(xiàn)這種算法早在iOS 14.3就存在于蘋果的生態(tài)系統(tǒng)中。這可能會引起一些人的驚訝,因為整個CSAM事件是一個最近才出現(xiàn)的東西,但這位用戶卻指出,有很好的理由相信這一發(fā)現(xiàn)是合法的。
首先,發(fā)現(xiàn)模型的文件都附加了NeuralHashv3b前綴。它遵循了蘋果六頁紙的命名規(guī)則。其次,還注意到,未公開的源代碼使用了跟蘋果文檔中概述的相同的合成哈希的過程。第三,蘋果稱他們的哈希方案創(chuàng)建的哈希幾乎獨立于圖像的大小和壓縮,這也是該名Reddit用戶在源代碼中發(fā)現(xiàn)的,這進一步鞏固了他們的信念,即確實發(fā)現(xiàn)了隱藏在源代碼深處的NeuralHash。
Reddit用戶在GitHub上發(fā)布了發(fā)現(xiàn)。雖然他沒有公布導出的模型文件,但他概述了提取模型并將其轉換為可部署的ONNX運行時格式的過程。在導出模型后,他測試運行了推斷并給出了一個樣本圖像。
根據(jù)這位Reddit用戶的說法,所有設備上的哈希都是一樣的,除了幾個bits之外,而這是意料之中的行為,因為NeuralHash負責處理浮點計算,其準確性在很大程度上取決于硬件。另外,他還補充稱,蘋果很可能會在隨后的數(shù)據(jù)庫匹配算法中適應這些相差幾位的差異。
這位Reddit用戶認為,現(xiàn)在是深入研究NeuralHash的工作原理及其對用戶隱私的影響的好時機。