在JAVA中,有六个不同的地方可以存储数据:
- 寄存器(register): JVM内部虚拟寄存器,存取速度非常快,程序不可控制。
- 堆栈(stack):简称 栈, 保存局部变量的值,包括:1.用来保存基本数据类型(共有8种,即int, short, long, byte, float, double, boolean, char 注意,并没有String的基本类型)的值;2.保存类的实例,即堆区对象的引用(指针)。也可以用来保存加载方法时的帧。
- 堆(heap)。用来存放动态产生的数据,比如new出来的对象或数组。注意创建出来的对象只包含属于各自的成员变量,并不包括成员方法。因为同一个类的对象拥有各自的成员变量,存储在各自的堆中,但是他们共享该类的方法,并不是每创建一个对象就把成员方法复制一次
- 静态存储(static storage)。存放在对象中用static定义的静态成员,这里的“静态”是指“在固定的位置”。静态存储里存放程序运行时一直存在的数据。
- 常量池(constant storage)。某类型所用常量的一个有序集合,包括直接常量(基本类型,String)和对其他类型、字段、方法的符号引用。
- 非RAM存储。数据完全存活于程序之外,可不受程序控制,程序未运行时亦可存在,如: 硬盘等永久存储空间
就速度来说,有如下关系:
寄存器 < 堆栈 < 堆 < 其他
常量池 (constant pool)
常量池指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。除了包含代码中所定义的各种基本类型(如int、long等等)和对象型(如String及数组)的常量值(final)还包含一些以文本形式出现的符号引用(1) ,比如:
◆类和接口的全限定名;
◆字段的名称和描述符;
◆方法和名称和描述符。
虚拟机必须为每个被装载的类型维护一个常量池。常量池就是该类型所用到常量的一个有序集和,包括直接常量(string,integer和 floating point常量)和对其他类型,字段和方法的符号引用(1)。
对于String常量,它的值是在常量池中的。而JVM中的常量池在内存当中是以表的形式存在的, 对于String类型,有一张固定长度的CONSTANT_String_info表用来存储文字字符串值,注意:该表只存储文字字符串值,不存储符号引用。说到这里,对常量池中的字符串值的存储位置应该有一个比较明了的理解了。
在程序执行的时候,常量池 会储存在Method Area,而不是堆中。
为了对常量池有更具体的认识,下面引用几个例子:
对于基础类型的变量和常量,变量和引用存储在栈中,常量存储在常量池中,
举个栗子:
int a1 = 1,a2 = 1,a3 = 1;
public static final int INT1 = 1;
public static final int INT1 = 1;
public static final int INT1 = 1;
另外,局部变量(形式参数)的数据存储在栈中,并且它随方法的消失而消失。
Java中基本类型的包装类的大部分都实现了常量池技术,这些类是Byte,Short,Integer,Long,Character,Boolean,另外两种浮点数类型的包装类则没有实现。以下是测试栗子:
public class Test{
public static void main(String[] args){
//5种整形的包装类Byte,Short,Integer,Long,Character的对象,
//在值小于127时可以使用常量池
Integer i1=127;
Integer i2=127;
System.out.println(i1==i2)//输出true
//值大于127时,不会从常量池中取对象,为什么呢?
Integer i3=128;
Integer i4=128;
System.out.println(i3==i4)//输出false
//Boolean类也实现了常量池技术
Boolean bool1=true;
Boolean bool2=true;
System.out.println(bool1==bool2);//输出true
//浮点类型的包装类没有实现常量池技术
Double d1=1.0;
Double d2=1.0;
System.out.println(d1==d2)//输出false
}
}
栗子中Intenger超过127后为什么输出就是False,带着这个问题,我们去查看一下Intenger源码。
/**
* Returns a <tt>Integer</tt> instance representing the specified
* <tt>int</tt> value.
* If a new <tt>Integer</tt> instance is not required, this method
* should generally be used in preference to the constructor
* {@link #Integer(int)}, as this method is likely to yield
* significantly better space and time performance by caching
* frequently requested values.
*
* @param i an <code>int</code> value.
* @return a <tt>Integer</tt> instance representing <tt>i</tt>.
* @since 1.5
*/
public static Integer valueOf(int i) {
final int offset = 128;
if (i >= -128 && i <= 127) { // must cache
return IntegerCache.cache[i + offset];
}
return new Integer(i);
}
Integer.valueOf()中有个内部类IntegerCache(类似于一个常量数组,也叫对象池),它维护了一个Integer数组cache,长度为(128+127+1)=256;Integer类中还有一个Static Block(静态块)
static {
for(int i = 0; i < cache.length; i++)
cache[i] = new Integer(i - 128);
}
结论
从这个静态块可以看出,Integer已经默认创建了数值【-128-127】的Integer缓存数据。
所以使用Integer i1=127时,JVM会直接在该在对象池找到该值的引用。因此Integer i3=128;时,
因为值超过了常量池的范围,JVM会对i3和i4各自创建新的对象(即Integer i3=new Integer(128)),
所以他们不是同一个引用。所有是false
另外Byte,Short,Integer,Long,Character这5种整型的包装类也只是在对应值在范围【-128-127】才可使用对象池,
不负责创建和管理值超过了常量池的范围的对象。
打铁要趁热,随手就是一波测试题
public class IntegerTest {
public static void main(String[] args) {
poolTest();
}
public static void poolTest() {
Integer i1 = 80;
Integer i2 = 80;
Integer i3 = 0;
Integer i4 = new Integer(80);
Integer i5 = new Integer(80);
Integer i6 = new Integer(0);
//i1,i2指向常量池中同一个内存空间
System.out.println(i1 == i2); //true
System.out.println(i1 == i2 + i3); //true
//i4,i5分别位于堆中不同的内存空间
System.out.println(i4 == i5); //false
System.out.println((i4 == i5 + i6); //true
//对于i1==i2+i3、i4==i5+i6结果为True,是因为,Java的数学计算是在内存栈里操作的,
//Java会对i5、i6进行拆箱操作,其实比较的是基本类型(80=80+0),他们的值相同,因此结果为True。
}
}
上面讲了那么多,大家肯定都会疑惑,为什么没有String呢,这个比较特殊,下文会单独细讲
Java内存分配中的栈
栈(stack):是一个先进后出的数据结构,在函数中定义的一些基本类的变量数据型(共有8种,即int, short, long, byte, float, double, boolean, char 注意,并没有String的基本类型)、对象的引用变量、局部变量数据都在函数的栈内存中分配.
当在一段代码块定义一个变量时,Java就在栈中 为这个变量分配内存空间,当该变量退出该作用域后,Java会自动释放掉为该变量所分配的内存空间,该内存空间可以立即被另作他用。
Java内存分配中的堆
堆内存用来存放由new创建的对象和数组。 在堆中分配的内存,由Java虚拟机的自动垃圾回收器来管理。
在堆中产生了一个数组或对象后,还可以在栈中定义一个特殊的变量,让栈中这个变量的取值等于数组或对象在堆内存中的首地址,栈中的这个变量就成了数组或对象的引用变量。 引用变量就相当于是为数组或对象起的一个名称,以后就可以在程序中使用栈中的引用变量来访问堆中的数组或对象。引用变量就相当于是为数组或者对象起的一个名称。
引用变量是普通的变量,定义时在栈中分配,引用变量在程序运行到其作用域之外后被释放。而数组和对象本身在堆中分配,即使程序 运行到使用 new 产生数组或者对象的语句所在的代码块之外,数组和对象本身占据的内存不会被释放,数组和对象在没有引用变量指向它的时候,才变为垃圾,不能在被使用,但仍 然占据内存空间不放,在随后的一个不确定的时间被垃圾回收器收走(释放掉)。这也是 Java 比较占内存的原因。
实际上,栈中的变量指向堆内存中的变量,这就是Java中的指针!
堆与栈
Java的堆是一个运行时数据区,类的对象从中分配空间。这些对象通过new、newarray、 anewarray和multianewarray等指令建立,它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存大小,其内存中的数据是无序的,即先分配的和随后分配的内存并没有什么必然的位置关系,释放时也可以没有先后顺序。一般由使用者自由分配,生存期也不必事先告诉编译器,因为它是在运行时动态分配内存的,Java的垃圾回收器会自动收走这些不再使用的数据。但缺点是,由于要在运行时动态 分配内存,存取速度较慢。
栈的优势是,存取速度比堆要快,仅次于寄存器,栈数据可以共享。但缺点是,存在栈中的数据大小与生存期必须是 确定的,缺乏灵活性。栈中主要存放一些基本类型的变量数据(int, short, long, byte, float, double, boolean, char)和对象句柄(引用)。
栈有一个很重要的特殊性,就是存在栈中的数据可以共享。假设我们同时定义:
int a = 3;
int b = 3;
编译器先处理int a = 3;首先它会在栈中创建一个变量为a的引用,然后查找常量池中是否为有3这个值,没找到,就会把3存进来,然后将a指向3的地址。接着处理int b = 3;在创建完b的引用变量后,由于常量池中已经有3这个值,便将b直接指向3的地址。这样,就出现了a与b同时均指向3的情况。
特别注意的是,这种数据的共享与两个对象的引用同时指向一个对象的这种共享是不同的,假定两个类对象的引用同时指向一个对象,如果一个对象引用变量修改了这个对象的内部状态,那么另一个对象引用变量也即刻反映出这个变化,相反,如果只是基本数据类型的修改,只会在常量池中再创建一个数据,不会导致另一个指向此字面值的引用的值也跟着改变的情况。
如上栗,如果再令 a=4;那么编译器会重新常量池中是否有4值,如果没有,则将4存放进来,并令a指向4;如果已经有了,则直接将a指向这个地址。因此a值的改变不会影响到b的值。
Java中特殊的String类型
String是一个特殊的包装类数据。可以用:
String str = new String(“abc”);
String str = “abc”;
两种的形式来创建,第一种是用new()来新建对象的,它会在存放于堆中。每调用一次就会创建一个新的对象。而第二种是先在栈中创建一个对String类的对象引用变量str,然后通过符号引用去字符串常量池 里找有没有"abc",如果没有,则将"abc"存放进字符串常量池 ,并令str指向”abc”,如果已经有”abc” 则直接令str指向“abc”。
比较类里面的数值是否相等时,用 equals() 方法,这个对于String简单来说就是比较两字符串的Unicode序列是否相当,如果相等返回true;当测试两个包装类的引用是否指向同一个对象时,用 ==。
下面实践证明以上的理论。
String str1 = "abc";
String str2 = "abc";
System.out.println(str1==str2); //true
可以看出str1和str2是指向同一个对象的。
String str3 = new String ("abc");
String str4 = new String ("abc");
System.out.println(str3 == str4); // false
用new的方式是生成不同的对象。每一次生成一个。
采用 “” 双引号 直接创建多个”abc”字符串,在内存中其实只存在一个对象而已. 这种写法有利与节省内存空间. 同时它可以在一定程度上提高程序的运行速度,因为JVM会自动根据栈中数据的实际情况来决定是否有必要创建新对象。而对于String str = new String(“abc”);的代码,则一概在堆中创建新对象,而不管其字符串值是否相等,是否有必要创建新对象,从而加重了程序的负担。
另一方面, 要注意: 我们在使用诸如String str = “abc”;的格式定义类时,总是想当然地认为,创建了String类的对象str。担心陷阱!对象可能并没有被创建!而可能只是指向一个先前已经创建的 对象。只有通过new()方法才能保证每次都创建一个新的对象。
由于String类的不可变(immutable)性质,当String变量需要经常变换其值时,应该考虑使用StringBuffer类,以提高程序效率。
- 首先String不属于8种基本数据类型,String是一个对象。因为对象的默认值是null,所以String的默认值也是null;但它又是一种特殊的对象,有其它对象没有的一些特性。
- new String()和new String(”")都是申明一个新的空字符串,是空串不是null;
- String str=”hello”;String str=new String (”hello”)的区别
示例:
String s0="java";
String s1="java";
String s2="ja" + "va";
System.out.println( s0==s1 ); //true
System.out.println( s0==s2 ); //true
首先,我们要知结果为道Java 会确保一个字符串常量只有一个拷贝。
因为例子中的 s0和s1中的"java"都是字符串常量,它们在编译期就被确定了,所以s0 == s1为true;而"ja"和"va"也都是字符串常量,当一个字符串由多个字符串常量连接而成时,它自己肯定也是字符串常量,所以s2也同样在编译期就被解析为一个字符串常量,所以s2也是常量池中"java"的一个引用。所以我们得出 s0 == s1 == s2;用new String() 创建的字符串不是常量,不能在编译期就确定,所以new String() 创建的字符串不放入常量池中,它们有自己的地址空间。
示例:
String s0="java";
String s1=new String("java");
String s2="ja" + new String("va");
System.out.println( s0==s1 ); //false
System.out.println( s0==s2 ); //false
System.out.println( s1==s2 ); //false
例2中s0还是常量池 中"java"的应用,s1因为无法在编译期确定,所以是运行时创建的新对象"java"的引用,s2因为有后半部分 new String(”va”)所以也无法在编译期确定,所以也是一个新创建对象"java"的应用;明白了这些也就知道为何得出此结果了。
- String.intern():
再补充介绍一点:存在于.class文件中的常量池,在运行期被JVM装载,并且可以扩充。String的 intern()方法就是扩充常量池的 一个方法;当一个String实例str调用intern()方法时,Java 查找常量池中 是否有相同Unicode的字符串常量,如果有,则返回其的引用,如果没有,则在常 量池中增加一个Unicode等于str的字符串并返回它的引用;看示例就清楚了
示例:
String s0= "java";
String s1=new String("java");
String s2=new String("java");
System.out.println( s0==s1 ); // false
s1.intern();
s2=s2.intern(); //把常量池中"java"的引用赋给s2
System.out.println( s0==s1); //false 虽然执行了s1.intern(),但它的返回值没有赋给s1
System.out.println( s0==s1.intern() ); //true 说明s1.intern()返回的是常量池中"kvill"的引用
System.out.println( s0==s2 ); //true
最后我再破除一个错误的理解:有人说,“使用 String.intern() 方法则可以将一个 String 类的保存到一个全局 String 表中 ,如果具有相同值的 Unicode 字符串已经在这个表中,那么该方法返回表中已有字符串的地址,如果在表中没有相同值的字符串,则将自己的地址注册到表中”如果我把他说的这个全局的 String 表理解为常量池的话,他的最后一句话,"如果在表中没有相同值的字符串,则将自己的地址注册到表中"是错的:
示例:
String s1=new String("java");
String s2=s1.intern();
System.out.println( s1==s1.intern() ); //false
System.out.println( s1+" "+s2 ); //java java
System.out.println( s2==s1.intern() ); //true
在这个类中我们没有声名一个"java"常量,所以常量池中一开始是没有"java"的,当我们调用s1.intern()后就在常量池中新添加了一 个"java"常量,原来的不在常量池中的"java"仍然存在,也就不是“将自己的地址注册到常量池中”了。
s1 == s1.intern() 为false说明原来的"java"仍然存在;s2现在为常量池中"java"的地址,所以有 s2 == s1.intern()为true。
- 关于String是不可变的
这一说又要说很多,大家只 要知道String的实例一旦生成就不会再改变了,比如说:String str=“ja”+“va”+" “+“ans”; 就是有4个字符串常量,首先"ja"和"va"生成了”java”存在内存中,然后"java"又和” " 生成 "java "存在内存中,最后又和生成了”java ans”;并把这个字符串的地址赋给了str,就是因为String的**“不可变”**产生了很多临时变量,这也就是为什么建议用StringBuffer的原 因了,因为StringBuffer是可改变的。
下面是一些String相关的常见问题:
String中的final用法和理解
final StringBuffer a = new StringBuffer(“111”);
final StringBuffer b = new StringBuffer(“222”);
a=b; //此句编译不通过
final StringBuffer a = new StringBuffer(“111”);
a.append(“222”); // 编译通过
可见,final只对引用的"值"(即内存地址)有效,它迫使引用只能指向初始指向的那个对象,改变它的指向会导致编译期错误。至于它所指向的对象 的变化,final是不负责的。
String常量池问题的几个例子
下面是几个常见例子的比较分析和理解:
String a = "a1";
String b = "a" + 1;
System.out.println((a == b)); //result = true
String a = "atrue";
String b = "a" + "true";
System.out.println((a == b)); //result = true
String a = "a3.4";
String b = "a" + 3.4;
System.out.println((a == b)); //result = true
分析:JVM对于字符串常量的"+“号连接,将程序编译期,JVM就将常量字符串的”+“连接优化为连接后的值,拿"a” + 1来说,经编译器优化后在class中就已经是a1。在编译期其字符串常量的值就确定下来,故上面程序最终的结果都为true。
String a = "ab";
String bb = "b";
String b = "a" + bb;
System.out.println((a == b)); //result = false
分析:JVM对于字符串引用,由于在字符串的"+“连接中,有字符串引用存在,而引用的值在程序编译期是无法确定的,即"a” + bb无法被编译器优化,只有在程序运行期来动态分配并将连接后的新地址赋给b。所以上面程序的结果也就为false。
String a = "ab";
final String bb = "b";
String b = "a" + bb;
System.out.println((a == b)); //result = true
分析:和[3]中唯一不同的是bb字符串加了final修饰,对于final修饰的变量,它在编译时被解析为常量值的一个本地拷贝存储到自己的常量 池中或嵌入到它的字节码流中。所以此时的"a" + bb和"a" + "b"效果是一样的。故上面程序的结果为true。
String a = "ab";
final String bb = getBB();
String b = "a" + bb;
System.out.println((a == b)); //result = false
private static String getBB() {
return "b";
}
分析:JVM对于字符串引用bb,它的值在编译期无法确定,只有在程序运行期调用方法后,将方法的返回值和"a"来动态连接并分配地址为b,故上面 程序的结果为false。
通过上面4个例子可以得出得知:
String s = "a" + "b" + "c";
就等价于String s = "abc";
String a = "a";
String b = "b";
String c = "c";
String s = a + b + c;
这个就不一样了,最终结果等于:
StringBuffer temp = new StringBuffer();
temp.append(a).append(b).append(c);
String s = temp.toString();
由上面的分析结果,可就不难推断出String 采用连接运算符(+)效率低下原因分析,形如这样的代码:
public class Test {
public static void main(String args[]) {
String s = null;
for(int i = 0; i < 100; i++) {
s += "a";
}
}
}
每做一次 + 就产生个StringBuilder对象,然后append后就扔掉。下次循环再到达时重新产生个StringBuilder对象,然后 append 字符串,如此循环直至结束。如果我们直接采用 StringBuilder 对象进行 append 的话,我们可以节省 N - 1 次创建和销毁对象的时间。所以对于在循环中要进行字符串连接的应用,一般都是用StringBuffer或StringBulider对象来进行 append操作。
String对象的intern方法理解和分析:
public class Test4 {
private static String a = "ab";
public static void main(String[] args){
String s1 = "a";
String s2 = "b";
String s = s1 + s2;
System.out.println(s == a);//false
System.out.println(s.intern() == a);//true
}
}
这里用到Java里面是一个常量池的问题。对于s1+s2操作,其实是在堆里面重新创建了一个新的对象,s保存的是这个新对象在堆空间的的内容,所 以s与a的值是不相等的。而当调用s.intern()方法,却可以返回s在常量池中的地址值,因为a的值存储在常量池中,故s.intern和a的值相等。
总结
字符串是一个特殊包装类,其引用是存放在栈里的,而对象内容必须根据创建方式不同定(常量池和堆),有的是编译期就已经创建好,存放在字符串常量池中,而有的是运行时才被创建,使用new关键字,存放在堆中。
脚注
(1) 符号引用,顾名思义,就是一个符号,符号引用被使用的时候,才会解析这个符号。如果熟悉linux或unix系统的,可以把这个符号引用看作一个文件的软链接,当使用这个软连接的时候,才会真正解析它,展开它找到实际的文件
对于符号引用,在类加载层面上讨论比较多,源码级别只是一个形式上的讨论。
当一个类被加载时,该类所用到的别的类的符号引用都会保存在常量池,实际代码执行的时候,首次遇到某个别的类时,JVM会对常量池的该类的符号引用展开,转为直接引用,这样下次再遇到同样的类型时,JVM就不再解析,而直接使用这个已经被解析过的直接引用。
除了上述的类加载过程的符号引用说法,对于源码级别来说,就是依照引用的解析过程来区别代码中某些数据属于符号引用还是直接引用,如,System.out.println(“test” +“abc”);//这里发生的效果相当于直接引用,而假设某个Strings = “abc”; System.out.println(“test” + s);//这里的发生的效果相当于符号引用,即把s展开解析,也就相当于s是"abc"的一个符号链接,也就是说在编译的时候,class文件并没有直接展看s,而把这个s看作一个符号,在实际的代码执行时,才会展开这个。
参考文章:java中的堆、栈和常量池