正確理解Ruby String用法
Ruby語(yǔ)言是一個(gè)運(yùn)用靈活的編程語(yǔ)言,通常都會(huì)被人們理解為一款解釋型腳本語(yǔ)言。在接下來(lái)的文章中,我們將會(huì)了解到一些關(guān)于Ruby String的相關(guān)知識(shí)。#t#
Ruby語(yǔ)言中的String是mutable的,不像java、C#中的String是immutable的。比如
- str1="abc"
 - str2="abc"
 
在java中,對(duì)于字面量的字符串,jvm內(nèi)部維持一張表,因此如果在java中,str1和str2是同一個(gè)String對(duì)象。而在Ruby中, str1和str2是完全不同的對(duì)象。同樣,在java中對(duì)于String對(duì)象的操作都將產(chǎn)生一個(gè)新的對(duì)象,而Ruby則是操縱同一個(gè)對(duì)象,比如:
- str="abc"
 - str.concat("cdf")
 
此時(shí)str就是"abccdf"。Ruby String是怎么處理的呢?我們只談?wù)刢 ruby中的實(shí)現(xiàn),有興趣的先看看這篇文章《管窺Ruby——對(duì)象基礎(chǔ)》。在ruby.h中我們可以看到String對(duì)象的結(jié)構(gòu),Ruby中的對(duì)象(包括類(lèi)也是對(duì)象)都是一個(gè)一個(gè)的struct,String也不能例外:
- struct RString {
 - struct RBasic basic;
 - long len;
 - char *ptr;
 - union {
 - long capa;
 - VALUE shared;
 - } aux;
 - };
 - //ruby.h
 
顯然,len是String的長(zhǎng)度;ptr是一個(gè)char類(lèi)型的指針,指向?qū)嶋H的字符串;然后是一個(gè)聯(lián)合,這個(gè)稍后再說(shuō)。如果你看看ruby.h可以發(fā) 現(xiàn),幾乎所有定義的對(duì)象結(jié)構(gòu)都有一個(gè)struct RBasic。顯然,struct RBasic包含由所有對(duì)象結(jié)構(gòu)體共享的一些重要信息的。看看RBasic:
- struct RBasic {
 - unsigned long flags;
 - VALUE klass;
 - };
 
其中的flags是一個(gè)多用途的標(biāo)記,大多數(shù)情況下用于記錄結(jié)構(gòu)體的類(lèi)型,ruby.h中預(yù)定義了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一個(gè)VALUE類(lèi)型,VALUE也是unsigned long,可以地將它當(dāng)成指針(一個(gè)指針4字節(jié),綽綽有余了),它指向的是一個(gè)Ruby對(duì)象,這里以后再深入。
那么聯(lián)合aux中的capa和shared是干什么用的呢?因?yàn)镽uby的String是可變的,可變意味著len可以改變,我們需要每次都根據(jù)len的 變換來(lái)增減內(nèi)存(使用c中的realloc()函數(shù)),這顯然是一個(gè)很大的開(kāi)銷(xiāo),解決辦法就是預(yù)留一定的空間,ptr指向的內(nèi)存大小略大于len,這樣就 不需要頻繁調(diào)用realloc了,aux.capa就是一個(gè)長(zhǎng)度,包含額外的內(nèi)存大小。那么aux.shared是干什么的呢?這是一個(gè)VALUE類(lèi)型, 說(shuō)明它是指向某個(gè)對(duì)象。aux.shared其實(shí)是用于加快字符串的創(chuàng)建速度,在一個(gè)循環(huán)中。
每次都重新創(chuàng)建一個(gè)"str"對(duì)象,內(nèi)部就是重復(fù)創(chuàng)建一個(gè)char[],這是相當(dāng)奢侈,aux.shared就是用于共享char[],以字面量創(chuàng)建的字符串會(huì)共享一個(gè)char[],當(dāng)要發(fā)生變化時(shí),將字符串復(fù)制到一個(gè)非共享的內(nèi)存中,變化針對(duì)這個(gè)新拷貝進(jìn)行,這就是所謂的“copy-on-write"技術(shù)。解釋了String的內(nèi)部構(gòu)造,貌似還沒(méi)有介紹String是怎么實(shí)現(xiàn)mutable,我們寫(xiě)一個(gè)Ruby擴(kuò)展測(cè)試下,我們想寫(xiě)這樣一個(gè)Ruby類(lèi):
classTestdefteststr="str"str.concat("ing")endend
對(duì)應(yīng)的c語(yǔ)言代碼就是:
- #include
 - #include"ruby.h"staticVALUEt_test(VALUEself){
 - VALUEstr;str=rb_str_new2("str");
 - printf("beforeconcat:str:%p,
 - str.aux.shared:%p,str.ptr:%s"n",str,
 
(RSTRING(str)->aux).shared,RSTRING(str)->ptr);- rb_str_cat2(str,"ing");
 - printf("afterconcat:str:%p,str.aux.
 
shared:%p,str.ptr:%s"n",- str,(RSTRING(str)->aux).shared,RSTRING
 
(str)->ptr);returnself;- }
 - VALUEcTest;
 - voidInit_string_hack(){
 - cTest=rb_define_class("Test",rb_cObject);
 - rb_define_method(cTest,"test",t_test,0);
 - }//string_hack.c
 
在t_test中,通過(guò)rb_str_new2每次生成一個(gè)RString結(jié)構(gòu),然后通過(guò)rb_str_cat2將str與"ing"連接起來(lái),添加
了一些打印用于跟蹤。利用mkmf產(chǎn)生Makefile,寫(xiě)一個(gè)extconf.rb
require'mkmf'create_makefile("string_hack");
執(zhí)行ruby extconf.rb,將產(chǎn)生一個(gè)Makefile,執(zhí)行make,生成一個(gè)string_hack.so的鏈接庫(kù)。擴(kuò)展寫(xiě)完了,通過(guò)
ruby調(diào)用:
require'string_hack"t=Test.new(1..3).each{|i|t.test}
輸出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string
從結(jié)果可以看出,在str concat之前之后,str指向的位置沒(méi)有改變,改變的僅僅是str中ptr指向的字符串的值,看看rb_str_cat2函數(shù)的實(shí)現(xiàn)就一目了然了:
- VALUErb_str_cat(str,ptr,len)VALUEstr;
 - constchar*ptr;
 - longlen;
 - {
 - if(len<0){rb_raise(rb_eArgError,
 
"negativestringsize(orsizetoobig)");- }
 - if(FL_TEST(str,STR_ASSOC))
 - {
 - rb_str_modify(str);
 - REALLOC_N(RSTRING(str)->ptr,char,
 
RSTRING(str)->len+len);- memcpy(RSTRING(str)->ptr+RSTRING
 
(str)->len,ptr,len);- RSTRING(str)->len+=len;
 - RSTRING(str)->ptr[RSTRING(str)->len]='"0';
 - /*sentinel*/
 - returnstr;
 - }
 - returnrb_str_buf_cat(str,ptr,len);
 - }
 - VALUErb_str_cat2(str,ptr)VALUEstr;
 - constchar*ptr;
 - {
 - returnrb_str_cat(str,ptr,strlen(ptr));
 - }
 - //string.c
 















 
 
 

 
 
 
 