淺析深拷貝與淺拷貝以及寫(xiě)時(shí)拷貝

作者：Jasonangel 2021-01-08 06:15:09

今天分享一個(gè)高頻面試問(wèn)題：深拷貝與淺拷貝以及寫(xiě)時(shí)拷貝

假設(shè)B復(fù)制了A，當(dāng)修改A時(shí)，看B是否會(huì)發(fā)生變化。如果B也跟著變了，說(shuō)明這是淺拷貝;如果B沒(méi)變，那就是深拷貝。

1、淺拷貝：將原對(duì)象的引用直接賦給新對(duì)象，新對(duì)象只是原對(duì)象的一個(gè)引用。

2、深拷貝：創(chuàng)建一個(gè)新的對(duì)象和數(shù)組，將原對(duì)象的各項(xiàng)屬性的“值”(數(shù)組的所有元素)拷貝過(guò)來(lái)，是“值”而不是“引用”。

淺拷貝只是對(duì)指針的拷貝，拷貝后兩個(gè)指針指向同一個(gè)內(nèi)存空間，深拷貝不但對(duì)指針進(jìn)行拷貝，而且對(duì)指針指向的內(nèi)容進(jìn)行拷貝，經(jīng)深拷貝后的指針是指向兩個(gè)不同地址的指針。

3、寫(xiě)時(shí)復(fù)制技術(shù)：最初產(chǎn)生于Unix系統(tǒng)，用于實(shí)現(xiàn)一種傻瓜式的進(jìn)程創(chuàng)建：當(dāng)發(fā)出fork( )系統(tǒng)調(diào)用時(shí)，內(nèi)核原樣復(fù)制父進(jìn)程的整個(gè)地址空間并把復(fù)制的那一份分配給子進(jìn)程。這種行為是非常耗時(shí)的，因?yàn)樗枰?/p>

· 為子進(jìn)程的頁(yè)表分配頁(yè)面

· 為子進(jìn)程的頁(yè)分配頁(yè)面

· 初始化子進(jìn)程的頁(yè)表

· 把父進(jìn)程的頁(yè)復(fù)制到子進(jìn)程相應(yīng)的頁(yè)中

創(chuàng)建一個(gè)地址空間的這種方法涉及許多內(nèi)存訪(fǎng)問(wèn)，消耗許多CPU周期，并且完全破壞了高速緩存中的內(nèi)容。在大多數(shù)情況下，這樣做常常是毫無(wú)意義的，因?yàn)樵S多子進(jìn)程通過(guò)裝入一個(gè)新的程序開(kāi)始它們的執(zhí)行，這樣就完全丟棄了所繼承的地址空間。

現(xiàn)在的Unix內(nèi)核(包括Linux)，采用一種更為有效的方法稱(chēng)之為寫(xiě)時(shí)復(fù)制(或COW)。這種思想相當(dāng)簡(jiǎn)單：父進(jìn)程和子進(jìn)程共享頁(yè)面而不是復(fù)制頁(yè)面。然而，只要頁(yè)面被共享，它們就不能被修改。無(wú)論父進(jìn)程和子進(jìn)程何時(shí)試圖寫(xiě)一個(gè)共享的頁(yè)面，就產(chǎn)生一個(gè)錯(cuò)誤，這時(shí)內(nèi)核就把這個(gè)頁(yè)復(fù)制到一個(gè)新的頁(yè)面中并標(biāo)記為可寫(xiě)。原來(lái)的頁(yè)面仍然是寫(xiě)保護(hù)的：當(dāng)其它進(jìn)程試圖寫(xiě)入時(shí)，內(nèi)核檢查寫(xiě)進(jìn)程是否是這個(gè)頁(yè)面的唯一屬主;如果是，它把這個(gè)頁(yè)面標(biāo)記為對(duì)這個(gè)進(jìn)程是可寫(xiě)的。

Linux的fork()使用寫(xiě)時(shí)復(fù)制

傳統(tǒng)的fork()系統(tǒng)調(diào)用直接把所有的資源復(fù)制給新創(chuàng)建的進(jìn)程。這種實(shí)現(xiàn)過(guò)于簡(jiǎn)單并且效率低下，因?yàn)樗截惖臄?shù)據(jù)或許可以共享。更糟糕的是，如果新進(jìn)程打算立即執(zhí)行一個(gè)新的映像，那么所有的拷貝都將前功盡棄。Linux的fork()使用寫(xiě)時(shí)拷貝(copy-on-write)頁(yè)實(shí)現(xiàn)。

寫(xiě)時(shí)拷貝是一種可以推遲甚至避免拷貝數(shù)據(jù)的技術(shù)。內(nèi)核此時(shí)并不復(fù)制整個(gè)進(jìn)程的地址空間，而是讓父子進(jìn)程共享同一個(gè)地址空間。只用在需要寫(xiě)入的時(shí)候才會(huì)復(fù)制地址空間，從而使各個(gè)進(jìn)行擁有各自的地址空間。也就是說(shuō)，資源的復(fù)制是在需要寫(xiě)入的時(shí)候才會(huì)進(jìn)行，在此之前，只有以只讀方式共享。這種技術(shù)使地址空間上的頁(yè)的拷貝被推遲到實(shí)際發(fā)生寫(xiě)入的時(shí)候。在頁(yè)根本不會(huì)被寫(xiě)入的情況下—例如，fork()后立即執(zhí)行exec()，地址空間就無(wú)需被復(fù)制了。fork()的實(shí)際開(kāi)銷(xiāo)就是復(fù)制父進(jìn)程的頁(yè)表以及給子進(jìn)程創(chuàng)建一個(gè)進(jìn)程描述符。在一般情況下，進(jìn)程創(chuàng)建后都為馬上運(yùn)行一個(gè)可執(zhí)行的文件，這種優(yōu)化，可以避免拷貝大量根本就不會(huì)被使用的數(shù)據(jù)(地址空間里常常包含數(shù)十兆的數(shù)據(jù))。由于Unix強(qiáng)調(diào)進(jìn)程快速執(zhí)行的能力，所以這個(gè)優(yōu)化是很重要的。

COW技術(shù)初窺：

在Linux程序中，fork()會(huì)產(chǎn)生一個(gè)和父進(jìn)程完全相同的子進(jìn)程，但子進(jìn)程在此后多會(huì)exec系統(tǒng)調(diào)用，出于效率考慮，linux中引入了“寫(xiě)時(shí)復(fù)制“技術(shù)，也就是只有進(jìn)程空間的各段的內(nèi)容要發(fā)生變化時(shí)，才會(huì)將父進(jìn)程的內(nèi)容復(fù)制一份給子進(jìn)程。

那么子進(jìn)程的物理空間沒(méi)有代碼，怎么去取指令執(zhí)行exec系統(tǒng)調(diào)用呢?

在fork之后exec之前兩個(gè)進(jìn)程用的是相同的物理空間(內(nèi)存區(qū))，子進(jìn)程的代碼段、數(shù)據(jù)段、堆棧都是指向父進(jìn)程的物理空間，也就是說(shuō)，兩者的虛擬空間不同，但其對(duì)應(yīng)的物理空間是同一個(gè)。當(dāng)父子進(jìn)程中有更改相應(yīng)段的行為發(fā)生時(shí)，再為子進(jìn)程相應(yīng)的段分配物理空間，如果不是因?yàn)閑xec，內(nèi)核會(huì)給子進(jìn)程的數(shù)據(jù)段、堆棧段分配相應(yīng)的物理空間(至此兩者有各自的進(jìn)程空間，互不影響)，而代碼段繼續(xù)共享父進(jìn)程的物理空間(兩者的代碼完全相同)。而如果是因?yàn)閑xec，由于兩者執(zhí)行的代碼不同，子進(jìn)程的代碼段也會(huì)分配單獨(dú)的物理空間。

在網(wǎng)上看到還有個(gè)細(xì)節(jié)問(wèn)題就是，fork之后內(nèi)核會(huì)通過(guò)將子進(jìn)程放在隊(duì)列的前面，以讓子進(jìn)程先執(zhí)行，以免父進(jìn)程執(zhí)行導(dǎo)致寫(xiě)時(shí)復(fù)制，而后子進(jìn)程執(zhí)行exec系統(tǒng)調(diào)用，因無(wú)意義的復(fù)制而造成效率的下降。