通過JVM原理理解字符串的比較
Java中的字符串也是一連串的字符,但是與許多其他的計(jì)算機(jī)語言將字符串作為字符數(shù)組處理不同,Java將字符串作為String類型對(duì)象來處理。將字符串作為內(nèi)置的對(duì)象處理允許Java提供十分豐富的功能特性以方便處理字符串。
JVM運(yùn)行時(shí)數(shù)據(jù)區(qū)的內(nèi)存模型由五部分組成:
(1)方法區(qū)
(2)堆
(3)JAVA棧
(4)PC寄存器
(5)本地方法棧
對(duì)于String s = "haha" ,它的虛擬機(jī)指令:
- 0: ldc "16; //String haha
- 2: astore_1
- 3: return
ldc指令格式:
ldc,index
ldc指令過程:要執(zhí)行l(wèi)dc指令,JVM首先查找index所指定的常量池入口,在index指向的JVM常量池入口,JVM將會(huì)查找CONSTANT_Integer_info,CONSTANT_Float_info和CONSTANT_String_info入口。如果還沒有這些入口,JVM會(huì)解析它們。而對(duì)于上面的hahaJVM會(huì)找到CONSTANT_String_info入口,同時(shí),將把指向被拘留String對(duì)象(由解析該入口的進(jìn)程產(chǎn)生)的引用壓入操作數(shù)棧。
astore_1指令格式:
astore_1
astore_1指令過程:要執(zhí)行astore_1指令,JVM從操作數(shù)棧頂部彈出一個(gè)引用類型或者returnAddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnAddress類型值存入局部變量1。
return 指令的過程:
從上面的ldc指令的執(zhí)行過程可以得出:s的值是來自被拘留String對(duì)象(由解析該入口的進(jìn)程產(chǎn)生)的引用,即可以理解為是從被拘留String對(duì)象的引用復(fù)制而來的,故我個(gè)人的理解是s的值是存在棧當(dāng)中。上面是對(duì)于s值得分析,接著是對(duì)于"haha"值的分析,我們知道,對(duì)于String s = "haha" 其中"haha"值在JAVA程序編譯期就確定下來了的。簡(jiǎn)單一點(diǎn)說,就是haha的值在程序編譯成class文件后,就在class文件中生成了(大家可以用UE編輯器或其它文本編輯工具在打開class文件后的字節(jié)碼文件中看到這個(gè)haha值)。執(zhí)行JAVA程序的過程中,***步是class文件生成,然后被JVM裝載到內(nèi)存執(zhí)行。那么JVM裝載這個(gè)class到內(nèi)存中,其中的haha這個(gè)值,在內(nèi)存中是怎么為其開辟空間并存儲(chǔ)在哪個(gè)區(qū)域中呢?
JVM常量池
虛擬機(jī)必須為每個(gè)被裝載的類型維護(hù)一個(gè)常量池。常量池就是該類型所用到常量的一個(gè)有序集和,包括直接常量(string,integer和floating point常量)和對(duì)其他類型,字段和方法的符號(hào)引用。對(duì)于String常量,它的值是在常量池中的。而JVM常量池在內(nèi)存當(dāng)中是以表的形式存在的,對(duì)于String類型,有一張固定長(zhǎng)度的CONSTANT_String_info表用來存儲(chǔ)文字字符串值,注意:該表只存儲(chǔ)文字字符串值,不存儲(chǔ)符號(hào)引用。說到這里,對(duì)JVM常量池中的字符串值的存儲(chǔ)位置應(yīng)該有一個(gè)比較明了的理解了。
在介紹完JVM常量池的概念后,接著談開始提到的"haha"的值的內(nèi)存分布的位置。對(duì)于haha的值,實(shí)際上是在class文件被JVM裝載到內(nèi)存當(dāng)中并被引擎在解析ldc指令并執(zhí)行l(wèi)dc指令之前,JVM就已經(jīng)為haha這個(gè)字符串在常量池的CONSTANT_String_info表中分配了空間來存儲(chǔ)haha這個(gè)值。
既然haha這個(gè)字符串常量存儲(chǔ)在常量池中,常量池是屬于類型信息的一部分,類型信息也就是每一個(gè)被轉(zhuǎn)載的類型,這個(gè)類型反映到JVM內(nèi)存模型中是對(duì)應(yīng)存在于JVM內(nèi)存模型的方法區(qū)中,也就是這個(gè)類型信息中的JVM常量池概念是存在于在方法區(qū)中,而方法區(qū)是在JVM內(nèi)存模型中的堆中由JVM來分配的。所以,haha的值是應(yīng)該是存在堆空間中的。而對(duì)于String s = new String("haha") ,它的JVM指令:
- 0: new "16; //class String
- 3: dup
- 4: ldc "18; //String haha
- 6: invokespecial "20; //Method java/lang/String."":(Ljava/lang/String;)V
- 9: astore_1
- 10: return
new指令格式:new indexbyte1,indexbyte2
new指令過程:
要執(zhí)行new指令,Jvm通過計(jì)算(indextype1<<8)|indextype2生成一個(gè)指向常量池的無符號(hào)16位索引。然后JVM根據(jù)計(jì)算出的索引查找JVM常量池入口。該索引所指向的常量池入口必須為CONSTANT_Class_info。如果該入口尚不存在,那么JVM將解析這個(gè)常量池入口,該入口類型必須是類。JVM從堆中為新對(duì)象映像分配足夠大的空間,并將對(duì)象的實(shí)例變量設(shè)為默認(rèn)值。***JVM將指向新對(duì)象的引用objectref壓入操作數(shù)棧。
dup指令格式:dup
dup指令過程:
要執(zhí)行dup指令,JVM復(fù)制了操作數(shù)棧頂部一個(gè)字長(zhǎng)的內(nèi)容,然后再將復(fù)制內(nèi)容壓入棧。本指令能夠從操作數(shù)棧頂部復(fù)制任何單位字長(zhǎng)的值。但絕對(duì)不要使用它來復(fù)制操作數(shù)棧頂部任何兩個(gè)字長(zhǎng)(long型或double型)中的一個(gè)字長(zhǎng)。上面例中,即復(fù)制引用objectref,這時(shí)在操作數(shù)棧存在2個(gè)引用。
ldc指令格式:ldc,index
ldc指令過程:
要執(zhí)行l(wèi)dc指令,JVM首先查找index所指定的常量池入口,在index指向的JVM常量池入口,JVM將會(huì)查找CONSTANT_Integer_info,CONSTANT_Float_info和CONSTANT_String_info入口。如果還沒有這些入口,JVM會(huì)解析它們。而對(duì)于上面的haha,JVM會(huì)找到CONSTANT_String_info入口,同時(shí),將把指向被拘留String對(duì)象(由解析該入口的進(jìn)程產(chǎn)生)的引用壓入操作數(shù)棧。
invokespecial指令格式:invokespecial,indextype1,indextype2
invokespecial指令過程:對(duì)于該類而言,該指令是用來進(jìn)行實(shí)例初始化方法的調(diào)用。上面例子中,即通過其中一個(gè)引用調(diào)用String類的構(gòu)造器,初始化對(duì)象實(shí)例,讓另一個(gè)相同的引用指向這個(gè)被初始化的對(duì)象實(shí)例,然后前一個(gè)引用彈出操作數(shù)棧。
astore_1指令格式:astore_1
astore_1指令過程:
要執(zhí)行astore_1指令,JVM從操作數(shù)棧頂部彈出一個(gè)引用類型或者returnAddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnAddress類型值存入局部變量1。
return 指令的過程:
從方法中返回,返回值為void,要執(zhí)行astore_1指令,JVM從操作數(shù)棧頂部彈出一個(gè)引用類型或者returnAddress類型值,然后將該值存入由索引1指定的局部變量中,即將引用類型或者returnAddress類型值存入局部變量1。
通過上面6個(gè)指令,可以看出,String s = new String("haha");中的haha存儲(chǔ)在堆空間中,而s則是在操作數(shù)棧中。上面是對(duì)s和haha值的內(nèi)存情況的分析和理解;那對(duì)于String s = new String("haha");語句,到底創(chuàng)建了幾個(gè)對(duì)象呢?這里"haha"本身就是JVM常量池中的一個(gè)對(duì)象,而在運(yùn)行時(shí)執(zhí)行new String()時(shí),將JVM常量池中的對(duì)象復(fù)制一份放到堆中,并且把堆中的這個(gè)對(duì)象的引用交給s持有。所以這條語句就創(chuàng)建了2個(gè)String對(duì)象。下面是一些String相關(guān)的常見問題: #p#
String中的final用法和理解
- final StringBuffer a = new StringBuffer("111");
- final StringBuffer b = new StringBuffer("222");
- a=b;//此句編譯不通過
- final StringBuffer a = new StringBuffer("111");
- a.append("222");//編譯通過
可見,final只對(duì)引用的"值"(即內(nèi)存地址)有效,它迫使引用只能指向初始指向的那個(gè)對(duì)象,改變它的指向會(huì)導(dǎo)致編譯期錯(cuò)誤。至于它所指向的對(duì)象的變化,final是不負(fù)責(zé)的。
String 常量池問題的幾個(gè)例子
下面是幾個(gè)常見例子的比較分析和理解:
- String a = "a1";
- String b = "a" + 1;
- System.out.println((a == b)); //result = true
- String a = "atrue";
- String b = "a" + "true";
- System.out.println((a == b)); //result = true
- String a = "a3.4";
- String b = "a" + 3.4;
- System.out.println((a == b)); //result = true
分析:JVM對(duì)于字符串常量的"+"號(hào)連接,將程序編譯期,JVM就將常量字符串的"+"連接優(yōu)化為連接后的值,拿"a" + 1來說,經(jīng)編譯器優(yōu)化后在class中就已經(jīng)是a1。在編譯期其字符串常量的值就確定下來,故上面程序最終的結(jié)果都為true。
- String a = "ab";
- String bb = "b";
- String b = "a" + bb;
- System.out.println((a == b)); //result = false
分析:JVM對(duì)于字符串引用,由于在字符串的"+"連接中,有字符串引用存在,而引用的值在程序編譯期是無法確定的,即"a" + bb無法被編譯器優(yōu)化,只有在程序運(yùn)行期來動(dòng)態(tài)分配并將連接后的新地址賦給b。所以上面程序的結(jié)果也就為false。
- String a = "ab";
- final String bb = "b";
- String b = "a" + bb;
- System.out.println((a == b)); //result = true
分析:和[3]中唯一不同的是bb字符串加了final修飾,對(duì)于final修飾的變量,它在編譯時(shí)被解析為常量值的一個(gè)本地拷貝存儲(chǔ)到自己的常量池中或嵌入到它的字節(jié)碼流中。所以此時(shí)的"a" + bb和"a" + "b"效果是一樣的。故上面程序的結(jié)果為true。
- String a = "ab";
- final String bb = getBB();
- String b = "a" + bb;
- System.out.println((a == b)); //result = false
- private static String getBB() {
- return "b";
- }
分析:JVM對(duì)于字符串引用bb,它的值在編譯期無法確定,只有在程序運(yùn)行期調(diào)用方法后,將方法的返回值和"a"來動(dòng)態(tài)連接并分配地址為b,故上面程序的結(jié)果為false。通過上面4個(gè)例子可以得出得知:
- String s = "a" + "b" + "c";
- 就等價(jià)于String s = "abc";
- String a = "a";
- String b = "b";
- String c = "c";
- String s = a + b + c;
這個(gè)就不一樣了,最終結(jié)果等于:
- StringBuffer temp = new StringBuffer();
- temp.append(a).append(b).append(c);
- String s = temp.toString();
由上面的分析結(jié)果,可就不難推斷出String 采用連接運(yùn)算符(+)效率低下原因分析,形如這樣的代碼:
- public class Test {
- public static void main(String args[]) {
- String s = null;
- for(int i = 0; i < 100; i++) {
- s += "a";
- }
- }
- }
每做一次 + 就產(chǎn)生個(gè)StringBuilder對(duì)象,然后append后就扔掉。下次循環(huán)再到達(dá)時(shí)重新產(chǎn)生個(gè)StringBuilder對(duì)象,然后 append 字符串,如此循環(huán)直至結(jié)束。 如果我們直接采用 StringBuilder 對(duì)象進(jìn)行 append 的話,我們可以節(jié)省 N - 1 次創(chuàng)建和銷毀對(duì)象的時(shí)間。所以對(duì)于在循環(huán)中要進(jìn)行字符串連接的應(yīng)用,一般都是用StringBuffer或StringBulider對(duì)象來進(jìn)行append操作。String對(duì)象的intern方法理解和分析:
- public class Test4 {
- private static String a = "ab";
- public static void main(String[] args){
- String s1 = "a";
- String s2 = "b";
- String s = s1 + s2;
- System.out.println(s == a);//false
- System.out.println(s.intern() == a);//true
- }
- }
這里用到Java里面是一個(gè)常量池的問題。對(duì)于s1+s2操作,其實(shí)是在堆里面重新創(chuàng)建了一個(gè)新的對(duì)象,s保存的是這個(gè)新對(duì)象在堆空間的的內(nèi)容,所以s與a的值是不相等的。而當(dāng)調(diào)用s.intern()方法,卻可以返回s在JVM常量池中的地址值,因?yàn)閍的值存儲(chǔ)在常量池中,故s.intern和a的值相等。
【編輯推薦】
- Java和Oracle實(shí)現(xiàn)BLOB字段的字符串讀取
- Java語言常見字符串注意事項(xiàng)
- 使用Java截取字符串的方法
- Java字符串轉(zhuǎn)日期或日期轉(zhuǎn)字符串
- 詳解Java String字符串對(duì)象的創(chuàng)建及管理