關于String有沒有長度限制的問題,我之前單獨寫過一篇文章分析過,最近我又抽空回顧了一下這個問題,發現又有了一些新的認識。于是準備重新整理下這個內容。
作者 l Hollis
來源 l Hollis(ID:hollischuang)
關于String有沒有長度限制的問題,我之前單獨寫過一篇文章分析過,最近我又抽空回顧了一下這個問題,發現又有了一些新的認識。于是準備重新整理下這個內容。
這次在之前那篇文章的基礎上除了增加了一些驗證過程外,還有些錯誤內容的修正。我這次在分析過程中會嘗試對Jdk的編譯過程進行debug,并且會參考一些JVM規范等全方面的介紹下這個知識點。因為這個問題涉及到Java的編譯原理相關的知識,所以通過視頻的方式講解會更加容易理解一些,視頻我上傳到了B站,大家可以到文末點擊閱讀原文查看。
1
String的長度限制
想要搞清楚這個問題,首先我們需要翻閱一下String的源碼,看下其中是否有關于長度的限制或者定義。
String類中有很多重載的構造函數,其中有幾個是支持用戶傳入length來執行長度的:
public String(byte bytes[], int offset, int length)
可以看到,這里面的參數length是使用int類型定義的,那么也就是說,String定義的時候,最大支持的長度就是int的最大范圍值。
根據Integer類的定義,java.lang.Integer#MAX_VALUE的最大值是2^31 - 1;
那么,我們是不是就可以認為String能支持的最大長度就是這個值了呢?
其實并不是,這個值只是在運行期,我們構造String的時候可以支持的一個最大長度,而實際上,在運行期,定義字符串的時候也是有長度限制的。
如以下代碼:
String s = "11111...1111";//其中有10萬個字符"1"
當我們使用如上形式定義一個字符串的時候,當我們執行javac編譯時,是會拋出異常的,提示如下:
錯誤: 常量字符串過長
那么,明明String的構造函數指定的長度是可以支持2147483647(2^31 - 1)的,為什么像以上形式定義的時候無法編譯呢?其實,形如String s = "xxx";定義String的時候,xxx被我們稱之為字面量,這種字面量在編譯之后會以常量的形式進入到Class常量池。那么問題就來了,因為要進入常量池,就要遵守常量池的有關規定。
2
常量池限制
我們知道,javac是將Java文件編譯成class文件的一個命令,那么在Class文件生成過程中,就需要遵守一定的格式。
根據《Java虛擬機規范》中第4.4章節常量池的定義,CONSTANT_String_info 用于表示 java.lang.String 類型的常量對象,格式如下:
CONSTANT_String_info {
u1 tag;
u2 string_index;
}
其中,string_index 項的值必須是對常量池的有效索引, 常量池在該索引處的項必須是CONSTANT_Utf8_info 結構,表示一組 Unicode 碼點序列,這組 Unicode 碼點序列最終會被初始化為一個 String 對象。
CONSTANT_Utf8_info結構用于表示字符串常量的值:
CONSTANT_Utf8_info {
u1 tag;
u2 length;
u1 bytes[length];
}
其中,length則指明了 bytes[]數組的長度,其類型為u2,
通過翻閱《規范》,我們可以獲悉。u2表示兩個字節的無符號數,那么1個字節有8位,2個字節就有16位。
16位無符號數可表示的最大值位2^16 - 1= 65535。
也就是說,Class文件中常量池的格式規定了,其字符串常量的長度不能超過65535。
那么,我們嘗試使用以下方式定義字符串:
String s = "11111...1111";//其中有65535萬個字符"1"
嘗試使用javac編譯,同樣會得到"錯誤: 常量字符串過長",那么原因是什么呢?
其實,這個原因在javac的代碼中是可以找到的,在Gen類中有如下代碼:
private void checkStringConstant(DiagnosticPosition var1, Object var2) {
if (this.nerrs == 0 && var2 != null && var2 instanceof String
&& ((String)var2).length() >= 65535) {
this.log.error(var1, "limit.string", new Object[0]);
++this.nerrs;
}
}
代碼中可以看出,當參數類型為String,并且長度大于等于65535的時候,就會導致編譯失敗。
這個地方大家可以嘗試著debug一下javac的編譯過程(視頻中有對java的編譯過程進行debug的方法),也可以發現這個地方會報錯。
如果我們嘗試以65534個字符定義字符串,則會發現可以正常編譯。
其實,關于這個值,在《Java虛擬機規范》也有過說明:
If the Java Virtual Machine code for a method is exactly 65535 bytes long and endswith an instruction that is 1 byte long, then that instruction cannot beprotected by an exception handler. A compiler writer can work around this bugby limiting the maximum size of the generated Java Virtual Machine code for anymethod, instance initialization method, or static initializer (the size of anycode array) to 65534 bytes.
3
運行期限制
上面提到的這種String長度的限制是編譯期的限制,也就是使用String s= “”;這種字面值方式定義的時候才會有的限制。
那么。String在運行期有沒有限制呢,答案是有的,就是我們前文提到的那個Integer.MAX_VALUE,這個值約等于4G,在運行期,如果String的長度超過這個范圍,就可能會拋出異常。(在jdk 1.9之前)
int是一個 32 位變量類型,取正數部分來算的話,他們最長可以有:
2^31-1 =2147483647 個 16-bit Unicodecharacter
2147483647 * 16 = 34359738352 位
34359738352 / 8 = 4294967294 (Byte)
4294967294 / 1024 = 4194303.998046875 (KB)
4194303.998046875 / 1024 = 4095.9999980926513671875 (MB)
4095.9999980926513671875 / 1024 = 3.99999999813735485076904296875 (GB)
有近 4G 的容量。
很多人會有疑惑,編譯的時候最大長度都要求小于65535了,運行期怎么會出現大于65535的情況呢。這其實很常見,如以下代碼:
String s = "";
for (int i = 0; i <100000 ; i++) {
s+="i";
}
得到的字符串長度就有10萬,另外我之前在實際應用中遇到過這個問題。
之前一次系統對接,需要傳輸高清圖片,約定的傳輸方式是對方將圖片轉成BASE6編碼,我們接收到之后再轉成圖片。
在將BASE64編碼后的內容賦值給字符串的時候就拋了異常。
4
總結
字符串有長度限制,在編譯期,要求字符串常量池中的常量不能超過65535,并且在javac執行過程中控制了最大值為65534。
在運行期,長度不能超過Int的范圍,否則會拋異常。
最后,這個知識點 ,我錄制了視頻,其中有關于如何進行實驗測試、如何查閱Java規范以及如何對javac進行debug的技巧。歡迎進一步學習。
來源:本文內容搜集或轉自各大網絡平臺,并已注明來源、出處,如果轉載侵犯您的版權或非授權發布,請聯系小編,我們會及時審核處理。
聲明:江蘇教育黃頁對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬于原作者。
Copyright©2013-2025 ?JSedu114 All Rights Reserved. 江蘇教育信息綜合發布查詢平臺保留所有權利
蘇公網安備32010402000125
蘇ICP備14051488號-3技術支持:南京博盛藍睿網絡科技有限公司
南京思必達教育科技有限公司版權所有 百度統計