關(guān)于String有沒(méi)有長(zhǎng)度限制的問(wèn)題,我之前單獨(dú)寫(xiě)過(guò)一篇文章分析過(guò),最近我又抽空回顧了一下這個(gè)問(wèn)題,發(fā)現(xiàn)又有了一些新的認(rèn)識(shí)。于是準(zhǔn)備重新整理下這個(gè)內(nèi)容。
作者 l Hollis
來(lái)源 l Hollis(ID:hollischuang)
關(guān)于String有沒(méi)有長(zhǎng)度限制的問(wèn)題,我之前單獨(dú)寫(xiě)過(guò)一篇文章分析過(guò),最近我又抽空回顧了一下這個(gè)問(wèn)題,發(fā)現(xiàn)又有了一些新的認(rèn)識(shí)。于是準(zhǔn)備重新整理下這個(gè)內(nèi)容。
這次在之前那篇文章的基礎(chǔ)上除了增加了一些驗(yàn)證過(guò)程外,還有些錯(cuò)誤內(nèi)容的修正。我這次在分析過(guò)程中會(huì)嘗試對(duì)Jdk的編譯過(guò)程進(jìn)行debug,并且會(huì)參考一些JVM規(guī)范等全方面的介紹下這個(gè)知識(shí)點(diǎn)。因?yàn)檫@個(gè)問(wèn)題涉及到Java的編譯原理相關(guān)的知識(shí),所以通過(guò)視頻的方式講解會(huì)更加容易理解一些,視頻我上傳到了B站,大家可以到文末點(diǎn)擊閱讀原文查看。
1
String的長(zhǎng)度限制
想要搞清楚這個(gè)問(wèn)題,首先我們需要翻閱一下String的源碼,看下其中是否有關(guān)于長(zhǎng)度的限制或者定義。
String類中有很多重載的構(gòu)造函數(shù),其中有幾個(gè)是支持用戶傳入length來(lái)執(zhí)行長(zhǎng)度的:
public String(byte bytes[], int offset, int length)
可以看到,這里面的參數(shù)length是使用int類型定義的,那么也就是說(shuō),String定義的時(shí)候,最大支持的長(zhǎng)度就是int的最大范圍值。
根據(jù)Integer類的定義,java.lang.Integer#MAX_VALUE的最大值是2^31 - 1;
那么,我們是不是就可以認(rèn)為String能支持的最大長(zhǎng)度就是這個(gè)值了呢?
其實(shí)并不是,這個(gè)值只是在運(yùn)行期,我們構(gòu)造String的時(shí)候可以支持的一個(gè)最大長(zhǎng)度,而實(shí)際上,在運(yùn)行期,定義字符串的時(shí)候也是有長(zhǎng)度限制的。
如以下代碼:
String s = "11111...1111";//其中有10萬(wàn)個(gè)字符"1"
當(dāng)我們使用如上形式定義一個(gè)字符串的時(shí)候,當(dāng)我們執(zhí)行javac編譯時(shí),是會(huì)拋出異常的,提示如下:
錯(cuò)誤: 常量字符串過(guò)長(zhǎng)
那么,明明String的構(gòu)造函數(shù)指定的長(zhǎng)度是可以支持2147483647(2^31 - 1)的,為什么像以上形式定義的時(shí)候無(wú)法編譯呢?其實(shí),形如String s = "xxx";定義String的時(shí)候,xxx被我們稱之為字面量,這種字面量在編譯之后會(huì)以常量的形式進(jìn)入到Class常量池。那么問(wèn)題就來(lái)了,因?yàn)橐M(jìn)入常量池,就要遵守常量池的有關(guān)規(guī)定。
2
常量池限制
我們知道,javac是將Java文件編譯成class文件的一個(gè)命令,那么在Class文件生成過(guò)程中,就需要遵守一定的格式。
根據(jù)《Java虛擬機(jī)規(guī)范》中第4.4章節(jié)常量池的定義,CONSTANT_String_info 用于表示 java.lang.String 類型的常量對(duì)象,格式如下:
CONSTANT_String_info {
u1 tag;
u2 string_index;
}
其中,string_index 項(xiàng)的值必須是對(duì)常量池的有效索引, 常量池在該索引處的項(xiàng)必須是CONSTANT_Utf8_info 結(jié)構(gòu),表示一組 Unicode 碼點(diǎn)序列,這組 Unicode 碼點(diǎn)序列最終會(huì)被初始化為一個(gè) String 對(duì)象。
CONSTANT_Utf8_info結(jié)構(gòu)用于表示字符串常量的值:
CONSTANT_Utf8_info {
u1 tag;
u2 length;
u1 bytes[length];
}
其中,length則指明了 bytes[]數(shù)組的長(zhǎng)度,其類型為u2,
通過(guò)翻閱《規(guī)范》,我們可以獲悉。u2表示兩個(gè)字節(jié)的無(wú)符號(hào)數(shù),那么1個(gè)字節(jié)有8位,2個(gè)字節(jié)就有16位。
16位無(wú)符號(hào)數(shù)可表示的最大值位2^16 - 1= 65535。
也就是說(shuō),Class文件中常量池的格式規(guī)定了,其字符串常量的長(zhǎng)度不能超過(guò)65535。
那么,我們嘗試使用以下方式定義字符串:
String s = "11111...1111";//其中有65535萬(wàn)個(gè)字符"1"
嘗試使用javac編譯,同樣會(huì)得到"錯(cuò)誤: 常量字符串過(guò)長(zhǎng)",那么原因是什么呢?
其實(shí),這個(gè)原因在javac的代碼中是可以找到的,在Gen類中有如下代碼:
private void checkStringConstant(DiagnosticPosition var1, Object var2) {
if (this.nerrs == 0 && var2 != null && var2 instanceof String
&& ((String)var2).length() >= 65535) {
this.log.error(var1, "limit.string", new Object[0]);
++this.nerrs;
}
}
代碼中可以看出,當(dāng)參數(shù)類型為String,并且長(zhǎng)度大于等于65535的時(shí)候,就會(huì)導(dǎo)致編譯失敗。
這個(gè)地方大家可以嘗試著debug一下javac的編譯過(guò)程(視頻中有對(duì)java的編譯過(guò)程進(jìn)行debug的方法),也可以發(fā)現(xiàn)這個(gè)地方會(huì)報(bào)錯(cuò)。
如果我們嘗試以65534個(gè)字符定義字符串,則會(huì)發(fā)現(xiàn)可以正常編譯。
其實(shí),關(guān)于這個(gè)值,在《Java虛擬機(jī)規(guī)范》也有過(guò)說(shuō)明:
If the Java Virtual Machine code for a method is exactly 65535 bytes long and endswith an instruction that is 1 byte long, then that instruction cannot beprotected by an exception handler. A compiler writer can work around this bugby limiting the maximum size of the generated Java Virtual Machine code for anymethod, instance initialization method, or static initializer (the size of anycode array) to 65534 bytes.
3
運(yùn)行期限制
上面提到的這種String長(zhǎng)度的限制是編譯期的限制,也就是使用String s= “”;這種字面值方式定義的時(shí)候才會(huì)有的限制。
那么。String在運(yùn)行期有沒(méi)有限制呢,答案是有的,就是我們前文提到的那個(gè)Integer.MAX_VALUE,這個(gè)值約等于4G,在運(yùn)行期,如果String的長(zhǎng)度超過(guò)這個(gè)范圍,就可能會(huì)拋出異常。(在jdk 1.9之前)
int是一個(gè) 32 位變量類型,取正數(shù)部分來(lái)算的話,他們最長(zhǎng)可以有:
2^31-1 =2147483647 個(gè) 16-bit Unicodecharacter
2147483647 * 16 = 34359738352 位
34359738352 / 8 = 4294967294 (Byte)
4294967294 / 1024 = 4194303.998046875 (KB)
4194303.998046875 / 1024 = 4095.9999980926513671875 (MB)
4095.9999980926513671875 / 1024 = 3.99999999813735485076904296875 (GB)
有近 4G 的容量。
很多人會(huì)有疑惑,編譯的時(shí)候最大長(zhǎng)度都要求小于65535了,運(yùn)行期怎么會(huì)出現(xiàn)大于65535的情況呢。這其實(shí)很常見(jiàn),如以下代碼:
String s = "";
for (int i = 0; i <100000 ; i++) {
s+="i";
}
得到的字符串長(zhǎng)度就有10萬(wàn),另外我之前在實(shí)際應(yīng)用中遇到過(guò)這個(gè)問(wèn)題。
之前一次系統(tǒng)對(duì)接,需要傳輸高清圖片,約定的傳輸方式是對(duì)方將圖片轉(zhuǎn)成BASE6編碼,我們接收到之后再轉(zhuǎn)成圖片。
在將BASE64編碼后的內(nèi)容賦值給字符串的時(shí)候就拋了異常。
4
總結(jié)
字符串有長(zhǎng)度限制,在編譯期,要求字符串常量池中的常量不能超過(guò)65535,并且在javac執(zhí)行過(guò)程中控制了最大值為65534。
在運(yùn)行期,長(zhǎng)度不能超過(guò)Int的范圍,否則會(huì)拋異常。
最后,這個(gè)知識(shí)點(diǎn) ,我錄制了視頻,其中有關(guān)于如何進(jìn)行實(shí)驗(yàn)測(cè)試、如何查閱Java規(guī)范以及如何對(duì)javac進(jìn)行debug的技巧。歡迎進(jìn)一步學(xué)習(xí)。
來(lái)源:本文內(nèi)容搜集或轉(zhuǎn)自各大網(wǎng)絡(luò)平臺(tái),并已注明來(lái)源、出處,如果轉(zhuǎn)載侵犯您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)聯(lián)系小編,我們會(huì)及時(shí)審核處理。
聲明:江蘇教育黃頁(yè)對(duì)文中觀點(diǎn)保持中立,對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或者完整性不提供任何明示或暗示的保證,不對(duì)文章觀點(diǎn)負(fù)責(zé),僅作分享之用,文章版權(quán)及插圖屬于原作者。
Copyright?2013-2024 JSedu114 All Rights Reserved. 江蘇教育信息綜合發(fā)布查詢平臺(tái)保留所有權(quán)利
蘇公網(wǎng)安備32010402000125
蘇ICP備14051488號(hào)-3技術(shù)支持:南京博盛藍(lán)睿網(wǎng)絡(luò)科技有限公司
南京思必達(dá)教育科技有限公司版權(quán)所有 百度統(tǒng)計(jì)