淺析深拷貝與淺拷貝以及寫(xiě)時(shí)拷貝
今天分享一個(gè)高頻面試問(wèn)題:深拷貝與淺拷貝以及寫(xiě)時(shí)拷貝
假設(shè)B復(fù)制了A,當(dāng)修改A時(shí),看B是否會(huì)發(fā)生變化。如果B也跟著變了,說(shuō)明這是淺拷貝;如果B沒(méi)變,那就是深拷貝。
1、淺拷貝:將原對(duì)象的引用直接賦給新對(duì)象,新對(duì)象只是原對(duì)象的一個(gè)引用。
2、深拷貝:創(chuàng)建一個(gè)新的對(duì)象和數(shù)組,將原對(duì)象的各項(xiàng)屬性的“值”(數(shù)組的所有元素)拷貝過(guò)來(lái),是“值”而不是“引用”。
淺拷貝只是對(duì)指針的拷貝,拷貝后兩個(gè)指針指向同一個(gè)內(nèi)存空間,深拷貝不但對(duì)指針進(jìn)行拷貝,而且對(duì)指針指向的內(nèi)容進(jìn)行拷貝,經(jīng)深拷貝后的指針是指向兩個(gè)不同地址的指針。
3、寫(xiě)時(shí)復(fù)制技術(shù):最初產(chǎn)生于Unix系統(tǒng),用于實(shí)現(xiàn)一種傻瓜式的進(jìn)程創(chuàng)建:當(dāng)發(fā)出fork( )系統(tǒng)調(diào)用時(shí),內(nèi)核原樣復(fù)制父進(jìn)程的整個(gè)地址空間并把復(fù)制的那一份分配給子進(jìn)程。這種行為是非常耗時(shí)的,因?yàn)樗枰?/p>
· 為子進(jìn)程的頁(yè)表分配頁(yè)面
· 為子進(jìn)程的頁(yè)分配頁(yè)面
· 初始化子進(jìn)程的頁(yè)表
· 把父進(jìn)程的頁(yè)復(fù)制到子進(jìn)程相應(yīng)的頁(yè)中
創(chuàng)建一個(gè)地址空間的這種方法涉及許多內(nèi)存訪(fǎng)問(wèn),消耗許多CPU周期,并且完全破壞了高速緩存中的內(nèi)容。在大多數(shù)情況下,這樣做常常是毫無(wú)意義的,因?yàn)樵S多子進(jìn)程通過(guò)裝入一個(gè)新的程序開(kāi)始它們的執(zhí)行,這樣就完全丟棄了所繼承的地址空間。
現(xiàn)在的Unix內(nèi)核(包括Linux),采用一種更為有效的方法稱(chēng)之為寫(xiě)時(shí)復(fù)制(或COW)。這種思想相當(dāng)簡(jiǎn)單:父進(jìn)程和子進(jìn)程共享頁(yè)面而不是復(fù)制頁(yè)面。然而,只要頁(yè)面被共享,它們就不能被修改。無(wú)論父進(jìn)程和子進(jìn)程何時(shí)試圖寫(xiě)一個(gè)共享的頁(yè)面,就產(chǎn)生一個(gè)錯(cuò)誤,這時(shí)內(nèi)核就把這個(gè)頁(yè)復(fù)制到一個(gè)新的頁(yè)面中并標(biāo)記為可寫(xiě)。原來(lái)的頁(yè)面仍然是寫(xiě)保護(hù)的:當(dāng)其它進(jìn)程試圖寫(xiě)入時(shí),內(nèi)核檢查寫(xiě)進(jìn)程是否是這個(gè)頁(yè)面的唯一屬主;如果是,它把這個(gè)頁(yè)面標(biāo)記為對(duì)這個(gè)進(jìn)程是可寫(xiě)的。
Linux的fork()使用寫(xiě)時(shí)復(fù)制
傳統(tǒng)的fork()系統(tǒng)調(diào)用直接把所有的資源復(fù)制給新創(chuàng)建的進(jìn)程。這種實(shí)現(xiàn)過(guò)于簡(jiǎn)單并且效率低下,因?yàn)樗截惖臄?shù)據(jù)或許可以共享。更糟糕的是,如果新進(jìn)程打算立即執(zhí)行一個(gè)新的映像,那么所有的拷貝都將前功盡棄。Linux的fork()使用寫(xiě)時(shí)拷貝(copy-on-write)頁(yè)實(shí)現(xiàn)。
寫(xiě)時(shí)拷貝是一種可以推遲甚至避免拷貝數(shù)據(jù)的技術(shù)。內(nèi)核此時(shí)并不復(fù)制整個(gè)進(jìn)程的地址空間,而是讓父子進(jìn)程共享同一個(gè)地址空間。只用在需要寫(xiě)入的時(shí)候才會(huì)復(fù)制地址空間,從而使各個(gè)進(jìn)行擁有各自的地址空間。也就是說(shuō),資源的復(fù)制是在需要寫(xiě)入的時(shí)候才會(huì)進(jìn)行,在此之前,只有以只讀方式共享。這種技術(shù)使地址空間上的頁(yè)的拷貝被推遲到實(shí)際發(fā)生寫(xiě)入的時(shí)候。在頁(yè)根本不會(huì)被寫(xiě)入的情況下—例如,fork()后立即執(zhí)行exec(),地址空間就無(wú)需被復(fù)制了。fork()的實(shí)際開(kāi)銷(xiāo)就是復(fù)制父進(jìn)程的頁(yè)表以及給子進(jìn)程創(chuàng)建一個(gè)進(jìn)程描述符。在一般情況下,進(jìn)程創(chuàng)建后都為馬上運(yùn)行一個(gè)可執(zhí)行的文件,這種優(yōu)化,可以避免拷貝大量根本就不會(huì)被使用的數(shù)據(jù)(地址空間里常常包含數(shù)十兆的數(shù)據(jù))。由于Unix強(qiáng)調(diào)進(jìn)程快速執(zhí)行的能力,所以這個(gè)優(yōu)化是很重要的。
COW技術(shù)初窺:
在Linux程序中,fork()會(huì)產(chǎn)生一個(gè)和父進(jìn)程完全相同的子進(jìn)程,但子進(jìn)程在此后多會(huì)exec系統(tǒng)調(diào)用,出于效率考慮,linux中引入了“寫(xiě)時(shí)復(fù)制“技術(shù),也就是只有進(jìn)程空間的各段的內(nèi)容要發(fā)生變化時(shí),才會(huì)將父進(jìn)程的內(nèi)容復(fù)制一份給子進(jìn)程。
那么子進(jìn)程的物理空間沒(méi)有代碼,怎么去取指令執(zhí)行exec系統(tǒng)調(diào)用呢?
在fork之后exec之前兩個(gè)進(jìn)程用的是相同的物理空間(內(nèi)存區(qū)),子進(jìn)程的代碼段、數(shù)據(jù)段、堆棧都是指向父進(jìn)程的物理空間,也就是說(shuō),兩者的虛擬空間不同,但其對(duì)應(yīng)的物理空間是同一個(gè)。當(dāng)父子進(jìn)程中有更改相應(yīng)段的行為發(fā)生時(shí),再為子進(jìn)程相應(yīng)的段分配物理空間,如果不是因?yàn)閑xec,內(nèi)核會(huì)給子進(jìn)程的數(shù)據(jù)段、堆棧段分配相應(yīng)的物理空間(至此兩者有各自的進(jìn)程空間,互不影響),而代碼段繼續(xù)共享父進(jìn)程的物理空間(兩者的代碼完全相同)。而如果是因?yàn)閑xec,由于兩者執(zhí)行的代碼不同,子進(jìn)程的代碼段也會(huì)分配單獨(dú)的物理空間。
在網(wǎng)上看到還有個(gè)細(xì)節(jié)問(wèn)題就是,fork之后內(nèi)核會(huì)通過(guò)將子進(jìn)程放在隊(duì)列的前面,以讓子進(jìn)程先執(zhí)行,以免父進(jìn)程執(zhí)行導(dǎo)致寫(xiě)時(shí)復(fù)制,而后子進(jìn)程執(zhí)行exec系統(tǒng)調(diào)用,因無(wú)意義的復(fù)制而造成效率的下降。