世界上最大的盜版網(wǎng)站,遇到麻煩了!
在劉慈欣的《三體》中,太陽(yáng)系將要被二維化時(shí),程心乘坐飛船來(lái)到了太陽(yáng)系邊沿的冥王星,在這里她遇到了曾經(jīng)的執(zhí)劍人羅輯。
羅輯向她介紹了人類(lèi)的墓碑:地球文明博物館。
在這里,人類(lèi)希望把自己的文明信息保留十億年!
但是當(dāng)時(shí)的量子存儲(chǔ)器,只能保存兩千年。
U盤(pán)和硬盤(pán),能保存五千年。
特殊金屬制成的光盤(pán), 10萬(wàn)年。
特殊的紙張和油墨制成的印刷品,20萬(wàn)年。
后來(lái)科學(xué)家們發(fā)現(xiàn),唯一可行的辦法是:把字刻在石頭上!這樣也許能保存1億年。
最后,人類(lèi)文明就變成了冥王星“石頭”上的字跡。
每次看到這里我都挺震撼的,信息的長(zhǎng)時(shí)間保存真難??!
科幻總是能讓人產(chǎn)生聯(lián)想, 雖然不需要保存地球文明,但是想想我們的互聯(lián)網(wǎng),有多少數(shù)據(jù)早已經(jīng)銷(xiāo)聲匿跡了?
有個(gè)統(tǒng)計(jì)說(shuō)網(wǎng)頁(yè)的平均壽命低得嚇人:只有區(qū)區(qū)75天!
很多網(wǎng)頁(yè)即使能被搜索引擎找到,打開(kāi)時(shí)也經(jīng)常會(huì)遇到404 not found。
能不能把全球互聯(lián)網(wǎng)網(wǎng)頁(yè)都找個(gè)地方保存起來(lái)呢?永不丟失呢?
1.把互聯(lián)網(wǎng)“存”起來(lái)
這是個(gè)瘋狂的想法,不過(guò),還真有人這么干了!
照片中這位老帥哥叫做Brewster Kahle, 他的夢(mèng)想就是做這件事情:把整個(gè)互聯(lián)網(wǎng)都存起來(lái)!
圖片
像曾經(jīng)的被戰(zhàn)火摧毀的亞歷山大圖書(shū)館那樣,保存人類(lèi)文明的知識(shí)。
圖片
很明顯,這需要錢(qián),很多錢(qián)。
幸運(yùn)的是,Kahle是一位成功的連續(xù)創(chuàng)業(yè)者,是一位億萬(wàn)富翁。
Kahle畢業(yè)于麻省理工,1992年創(chuàng)立了一家叫做WAIS的電子出版公司,可以讓華爾街日?qǐng)?bào),紐約時(shí)報(bào)和大英百科全書(shū)之類(lèi)的出版物在互聯(lián)網(wǎng)上發(fā)布。
1995年,Kahle把這套系統(tǒng)賣(mài)給了美國(guó)在線(xiàn),賺了1500萬(wàn)美元。
隨后他又創(chuàng)立了Alexa Internet ,這個(gè)網(wǎng)站估計(jì)很多人聽(tīng)說(shuō)過(guò)吧。
Alexa 以提供互聯(lián)網(wǎng)流量數(shù)據(jù),網(wǎng)站全球排名等信息聞名,1999年又以2.5億美元被亞馬遜收購(gòu)。
圖片
在創(chuàng)立Alexa的時(shí)候,他很“狡猾”地在其中加入了一份合同,要求Alexa收集的所有內(nèi)容副本都提供給他創(chuàng)立的另外一家非盈利機(jī)構(gòu): Internet Archive (互聯(lián)網(wǎng)檔案館)。
這才是Kahle畢生追求的夢(mèng)想。

(Internet Archive 總部)
2.海量數(shù)據(jù)
到目前為止,互聯(lián)網(wǎng)檔案館已經(jīng)保存了:
8350 億個(gè)網(wǎng)頁(yè)
4400 萬(wàn)本書(shū)籍和文本
100 萬(wàn)個(gè)軟件程序
1500萬(wàn) 錄音(包括25.5萬(wàn)個(gè)音樂(lè)會(huì))
1060萬(wàn)個(gè)視頻 (包括260個(gè)電視節(jié)目)
480萬(wàn)張圖片
圖片
(互聯(lián)網(wǎng)檔案館的服務(wù)器)
僅僅是單個(gè)副本就占用了145PB的空間(所有的內(nèi)容至少存儲(chǔ)兩個(gè)副本)。
冷冰冰的數(shù)字可能大家可能沒(méi)有感覺(jué), 我分享一個(gè)我自己的故事。
20年前,我使用鄭州商都信息港的免費(fèi)空間,建立了一個(gè)個(gè)人主頁(yè), liuxin.shangdu.net。
這么多年過(guò)去了, 商都信息港早就沒(méi)有了,這個(gè)網(wǎng)站也早就不能訪問(wèn)了。
但是,我卻能在Kahle的互聯(lián)網(wǎng)檔案館找到它的備份!
給大家瞅瞅,說(shuō)實(shí)話(huà),看到20年前的東西心情非常激動(dòng)。
圖片
20年前的東西還能給你扒拉出來(lái),你說(shuō)牛不牛?
如果你也想找古老的資料,也可以去試一試:https://web.archive.org/
互聯(lián)網(wǎng)檔案館不僅僅保存網(wǎng)頁(yè),還保存書(shū)籍。
為了把書(shū)籍?dāng)?shù)字化,他還制造了一個(gè)叫做Scribe的特殊掃描儀。
掃描儀分辨率超高,當(dāng)然價(jià)格不菲, 掃描一頁(yè)的成本是10美分,平均每本書(shū)300頁(yè),也就是一本書(shū)30美元,美國(guó)國(guó)會(huì)圖書(shū)館,有2600萬(wàn)本書(shū),如果都掃描的話(huà),需要花費(fèi)在7.5億美元。
有很多志愿者幫助掃描,如果你為它服務(wù)了三年,互聯(lián)網(wǎng)檔案館會(huì)為你建立一座自己的雕像,以示感謝。
圖片
(據(jù)說(shuō)仿秦始皇兵馬俑,看起來(lái)有點(diǎn)嚇人的不是?)
3.版權(quán)爭(zhēng)議
保存人類(lèi)互聯(lián)網(wǎng)的數(shù)據(jù),這本來(lái)是一個(gè)功德無(wú)量的事情。
但是,大家肯定會(huì)想到一個(gè)問(wèn)題,它收錄了這么多的資料,獲取授權(quán)了嗎?
互聯(lián)網(wǎng)檔案館說(shuō)任何人都可以將數(shù)字媒體上傳,肯定有很多軟件,書(shū)籍是沒(méi)有授權(quán)的。
雖然網(wǎng)站收錄的許多軟件都是舊的、已經(jīng)不再銷(xiāo)售或支持的版本,并且努力只收錄合法可分享的軟件,但有時(shí)可能會(huì)無(wú)意中收錄到一些版權(quán)受限的軟件。
所以有人戲稱(chēng):這是世界上最大的盜版網(wǎng)站!
更要命的是,互聯(lián)網(wǎng)檔案館在運(yùn)行一個(gè)“受控?cái)?shù)字借閱”的項(xiàng)目,這個(gè)項(xiàng)目可以將實(shí)體書(shū)轉(zhuǎn)成數(shù)字副本,然后受控借閱。
例如《三體》,你在上面找到了一套數(shù)字書(shū),借了出來(lái),然后別人就不能借閱這個(gè)數(shù)字書(shū)了,直到幾周后把你把它還回來(lái)以后,別人才能再次借閱,就像實(shí)體書(shū)一樣。
也就是說(shuō),互聯(lián)網(wǎng)檔案館把數(shù)字書(shū)也當(dāng)成實(shí)體書(shū),以借閱實(shí)體書(shū)的方式來(lái)對(duì)外提供服務(wù)。
但是,可以受控借閱的360萬(wàn)本書(shū)中有很多還是正在印刷和銷(xiāo)售的,作者和出版商仍然保留這些書(shū)的版權(quán),這就捅了馬蜂窩。
4.不可避免的訴訟
2020年,4家出版社(Hachette, Wiley, Penguin Random House, & HarperCollins)聯(lián)合起訴互聯(lián)網(wǎng)檔案館,指控他未經(jīng)許可分發(fā)了30多萬(wàn)本書(shū),索賠數(shù)億美元。
2023年3月,曼哈頓地方法官John G. Koeltl做出了判決,認(rèn)為互聯(lián)網(wǎng)檔案館的“受控?cái)?shù)字借閱”計(jì)劃不是合理使用。
2023年12月,互聯(lián)網(wǎng)檔案館提起上訴,認(rèn)為自己是一家非盈利的圖書(shū)館,通過(guò)“受控?cái)?shù)字借閱”計(jì)劃借出的每本書(shū)都已經(jīng)購(gòu)買(mǎi)、付款,數(shù)字借閱與傳統(tǒng)的圖書(shū)館借閱基本相同,不會(huì)對(duì)作者或出版業(yè)造成新的危害。
這個(gè)官司可能還有持續(xù)很久,結(jié)果如何,讓我們拭目以待吧!
























