Java String类源码阅读笔记

原创

三分恶在51CTO 2021-12-29 14:46:04 博主文章分类：JavaSE ©著作权

文章标签 Java String 源码常量池 java 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者三分恶在51CTO的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

一、前置
二、String类源码解析
1、String类继承关系
2、成员变量
3、构造方法
4、长度/判空
5、取字符
6、比较
7、包含
8、hashCode
9、查询索引
10、获取子串
11、拼接
12、替换
13、切割
14、大小写转换
15、去空格
16、字符/字符串转换
17、格式化
18、intern()
三、常量池
四、其它扩展
1、String 真的不可变吗?
2、String类为什么要设计为不可变的？
3、String对“+”的重载

本文基于jdk1.8

String类可谓是我们开发中使用最多的一个类了。对于它的了解，仅仅限于API的了解是不够的，必须对它的源码进行一定的学习。

一、前置

String类是Java中非常特别的一个类，虽然不是基本数据类型，但是通过一些处理，又在引用数据类型里比较特别，在学习之前，先了解一些JVM的知识。

Java String类源码阅读笔记_java

Method Area：方法区，当虚拟机装载一个class文件时，它会从这个class文件包含的二进制数据中解析类型信息，然后把这些类型信息（包括类信息、常量、静态变量等）放到方法区中，该内存区域被所有线程共享，本地方法区存在一块特殊的内存区域，叫常量池（Constant Pool）。
Heap：堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域，Java中的。
Stack：栈，又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说，它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作：以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
Program Count Register：程序计数器，又叫程序寄存器。JVM支持多个线程同时运行，当每一个新线程被创建时，它都将得到它自己的PC寄存器（程序计数器）。如果线程正在执行的是一个Java方法（非native），那么PC寄存器的值将总是指向下一条将被执行的指令，如果方法是 native的，程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
Native Stack：本地方法栈，存储本地方方法的调用状态。

常量池(constant pool)指的是在编译期被确定，并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量，也包括字符串常量。Java把内存分为堆内存跟栈内存，前者主要用来存放对象，后者用于存放基本类型变量以及对象的引用。

二、String类源码解析

1、String类继承关系

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {

看看String类的定义：

String是一个final类，既不能被继承的类
String类实现了java.io.Serializable接口，可以实现序列化
String类实现了Comparable<String>，可以用于比较大小（按顺序比较单个字符的ASCII码）
String类实现了 CharSequence 接口，表示是一个有序字符的序列，因为String的本质是一个char类型数组

String类继承关系如下图：

Java String类源码阅读笔记_常量池_02

String类详细继承关系如下图：

Java String类源码阅读笔记_String_03

2、成员变量

首先看看String类有哪些成员变量：

//用于字符存储的不可变字符数组
private final char value[];
// 缓存字符串的哈希码
private int hash;   //默认为0
//实现序列化的标识
private static final long serialVersionUID = -6849794470754667710L;

这些成员变量里需要重点关注：

private final char value[] 这是String字符串的本质，是一个字符集合，而且是final的，是不可变的。

3、构造方法

无参构造方法

/**
   * 初始化String对象，将""空字符串的value赋值给实例对象的value，也是空字符,因为字符串是不可变的，所以不需要用这个方法
   * 
   */
    public String() {
        this.value = "".value;
    }

示例：

String str = new String()
str = "hello";

1.先创建了一个空的String对象
2.接着又在常量池中创建了一个"hello",并赋值给第二个String
3.将第二个String的引用传递给第一个String
这种方式实际上创建了两个对象

参数为String的有参构造方法

/**
  *  参数为一个String对象
  * 将形参的value和hash赋值给实例对象作为初始化
  * 相当于深拷贝了一个形参String对象
  */
    public String(String original) {
        this.value = original.value;
        this.hash = original.hash;
    }

示例：

String str=new String("hello")

创建了一个对象。

参数为字符数组的有参构造方法

/**
    * 参数为一个char字符数组
    * 将数组值拷贝赋给不可变字符数组
    * 这里为什么不直接赋值呢？
    * 因为参数char value[]是可变的，如果直接赋值，当参数数组发生变化时，就会影响到新生成的String对象，着就破坏的String的“不可变性”。 
   */
    public String(char value[]) {
        this.value = Arrays.copyOf(value, value.length);
    }

参数为字符数组(指定起止位置)的有参构造方法

/**
   *  参数为char字符数组,offset(起始位置，偏移量),count(个数)
   * 在char数组的基础上，从offset位置开始计数count个，构成一个新的String的字符串
   **/
    public String(char value[], int offset, int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= value.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > value.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }
        this.value = Arrays.copyOfRange(value, offset, offset+count);
    }

参数为int数组(指定起止位置)的有参构造方法

/** 
    * 参数为int字符数组,offset(起始位置，偏移量),count(个数)
    * int数组的元素则是字符对应的ASCII整数值
    */
    public String(int[] codePoints, int offset, int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= codePoints.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > codePoints.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }

        final int end = offset + count;

        // Pass 1: Compute precise size of char[]
        int n = count;
        for (int i = offset; i < end; i++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                continue;
            else if (Character.isValidCodePoint(c))
                n++;
            else throw new IllegalArgumentException(Integer.toString(c));
        }

        // Pass 2: Allocate and fill in char[]
        final char[] v = new char[n];

        for (int i = offset, j = 0; i < end; i++, j++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                v[j] = (char)c;
            else
                Character.toSurrogates(c, v, j++);
        }

        this.value = v;
    }

有一些标为过时我们就不再关注了。

参数为byte数组(指定起止位置、字符编码)的有参构造方法

/** 
    * 参数为byte数组,offset(起始位置，偏移量),长度，和字符编码格式
    * 传入一个byte数组，从offset开始截取length个长度，其字符编码格式为charsetName，如UTF-8
    */
    public String(byte bytes[], int offset, int length, String charsetName)
            throws UnsupportedEncodingException {
        if (charsetName == null)
            throw new NullPointerException("charsetName");
        //判断byte数组是否越界    
        checkBounds(bytes, offset, length);
        this.value = StringCoding.decode(charsetName, bytes, offset, length);
    }

StringCoding类的decode方法：

static char[] decode(String charsetName, byte[] ba, int off, int len)
        throws UnsupportedEncodingException
    {
        StringDecoder sd = deref(decoder);
        String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
        if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
                              || csn.equals(sd.charsetName()))) {
            sd = null;
            try {
                Charset cs = lookupCharset(csn);
                if (cs != null)
                    sd = new StringDecoder(cs, csn);
            } catch (IllegalCharsetNameException x) {}
            if (sd == null)
                throw new UnsupportedEncodingException(csn);
            set(decoder, sd);
        }
        return sd.decode(ba, off, len);
    }

其余的从byte数组构造String的构造方法都是调用这个方法，这里就不再赘述。

参数为StringBuffer的有参构造方法

/**
   *  参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组
   * 线程安全的
   **/
    public String(StringBuffer buffer) {
        synchronized(buffer) {
            this.value = Arrays.copyOf(buffer.getValue(), buffer.length());
        }
    }

使用StringBuilder为参数构造类似，不过不是线程安全的。

4、长度/判空

length()

/**
   *  返回value数组的长度
   */
    public int length() {
        return value.length;
    }

isEmpty()

/**
     *  value数组的长度是否为0
   */
    public boolean isEmpty() {
        return value.length == 0;
    }

5、取字符

charAt(int index)

/**
   * 获取下标为index的value数组字符
   */
    public char charAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return value[index];
    }

codePointAt(int index)

/**
    * 返回String对象的char数组index位置的元素的ASSIC码(int类型)
    */
    public int codePointAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointAtImpl(value, index, value.length);
    }

codePointBefore(int index)

/**
    * 返回index位置元素的前一个元素的ASSIC码(int型)
    */
    public int codePointBefore(int index) {
        int i = index - 1;  //获得index前一个元素的索引位置
        if ((i < 0) || (i >= value.length)) { //所以，index不能等于0，因为i = 0 - 1 = -1
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointBeforeImpl(value, index, 0);
    }

getChars(char dst[], int dstBegin)

/**
    * 将value数组dstBegin下标起的字符拷贝给dst
    */
    void getChars(char dst[], int dstBegin) {
        System.arraycopy(value, 0, dst, dstBegin, value.length);
    }

6、比较

equals(Object anObject)

/**
   *  String的equals方法，重写了Object的equals方法（区分大小写）
   * 比较的是两个字符串的值是否相等
   * 参数是一个Object对象，而不是一个String对象。这是因为重写的是Object的equals方法，所以是Object
   */
    public boolean equals(Object anObject) {
        //如果较地址是否相等，是同一个对象
        if (this == anObject) {
            return true;
        }
        //判断anObject是否是String类型
        if (anObject instanceof String) {
           //将anObject转换为String类型
            String anotherString = (String)anObject;
            int n = value.length;
            //判断anotherString是否和当前String的value数组长度相同
            if (n == anotherString.value.length) {
                 //v1为当前String的值，v2为参数对象anotherString的值
                char v1[] = value;
                char v2[] = anotherString.value;
                int i = 0;
                //每次循环长度-1,直到长度消耗完，循环结束 
                while (n-- != 0) {
                   //相同下标位置字符串比较，有一个不相同，返回false
                    if (v1[i] != v2[i])
                        return false;
                    i++;
                }
                //如比较期间没有问题，则说明相等，返回true
                return true;
            }
        }
        return false;
    }

equalsIgnoreCase(String anotherString)

/**
    * 这也是一个String的equals方法，与上一个方法不用，该方法(不区分大小写)，从名字也能看出来
    * 是对String的equals方法的补充。
    * 这里参数这是一个String对象，而不是Object了，因为这是String本身的方法，不是重写谁的方法
    */
    public boolean equalsIgnoreCase(String anotherString) {
       //先判断是否为同一个对象
        return (this == anotherString) ? true
                : (anotherString != null)
                //再判断长度是否相等
                && (anotherString.value.length == value.length)
                //再调用regionMatchs方法 
                && regionMatches(true, 0, anotherString, 0, value.length);
    }

compareTo(String anotherString)

/**
    * 这是一个比较字符串中字符大小的函数，因为String实现了Comparable<String>接口，所以重写了compareTo方法
    * Comparable是排序接口。若一个类实现了Comparable接口，就意味着该类支持排序。
    * 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。
    * 
    * 参数是需要比较的另一个String对象
    * 返回的int类型，正数为大，负数为小，是基于字符的ASSIC码比较的
    * 
    */
    public int compareTo(String anotherString) {
        int len1 = value.length;
        int len2 = anotherString.value.length;
        int lim = Math.min(len1, len2);
        char v1[] = value;
        char v2[] = anotherString.value;

        int k = 0;
        while (k < lim) {
            char c1 = v1[k];
            char c2 = v2[k];
            if (c1 != c2) {
                return c1 - c2;
            }
            k++;
        }
        return len1 - len2;
    }

7、包含

startsWith(String prefix, int toffset)

/**
    * 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix
    * 也可以说当前对象的toffset位置开始是否以prefix作为前缀
    * prefix是需要判断的前缀字符串，toffset是当前对象的判断起始位置
    */
    public boolean startsWith(String prefix, int toffset) {
      //获得当前对象的值
        char ta[] = value;
        //获得需要判断的起始位置，偏移量
        int to = toffset;
        //获得前缀字符串的值
        char pa[] = prefix.value;
        int po = 0;
        int pc = prefix.value.length;
        // Note: toffset might be near -1>>>1.
        if ((toffset < 0) || (toffset > value.length - pc)) {
            return false;
        }
         //循环pc次，既prefix的长度
        while (--pc >= 0) {
        //每次比较当前对象的字符串的字符是否跟prefix一样
            if (ta[to++] != pa[po++]) {
                //一样则pc--,to++,po++,有一个不同则返回false
                return false;
            }
        }
        return true;
    }

startsWith(String prefix)

// 判断当前对象[0, prefix.value.lenght]区间的字符串片段等于prefix。
    public boolean startsWith(String prefix) {
        return startsWith(prefix, 0);
    }

endsWith(String suffix)

//判断当前字符串对象是否以字符串prefix结尾
    public boolean endsWith(String suffix) {
        return startsWith(suffix, value.length - suffix.value.length);
    }

//是否含有CharSequence这个子类元素，通常用于StrngBuffer,StringBuilder
    public boolean contains(CharSequence s) {
        return indexOf(s.toString()) > -1;
    }

8、hashCode

/**
      * String类重写了Object类的hashCode方法。
      * 哈希表来实现的数据结构来使用，比如String对象要放入HashMap中。
      *
   */
    public int hashCode() {
       //hash是成员变量，所以默认为0
        int h = hash;
        如果hash为0，且字符串对象长度大于0，不为""
        if (h == 0 && value.length > 0) {
            //获取当前对象的value
            char val[] = value;
            // 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值 
            for (int i = 0; i < value.length; i++) {
                //每次都是31 * 每次循环获得的h +第i个字符的ASSIC码
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

9、查询索引

indexOf(int ch, int fromIndex)

/**
     * index方法就是返回ch字符第一次在字符串中出现的位置
     * 既从fromIndex位置开始查找，从头向尾遍历，ch整数对应的字符在字符串中第一次出现的位置
     * -1代表字符串没有这个字符，整数代表字符第一次出现在字符串的位置
     */
 public int indexOf(int ch, int fromIndex) {
        final int max = value.length;
        if (fromIndex < 0) {
            fromIndex = 0;
        } else if (fromIndex >= max) {
            // Note: fromIndex might be near -1>>>1.
            return -1;
        }
       一个char占用两个字节，如果ch小于2的16次方（65536），绝大多数字符都在此范围内
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            //从 fromIndex位置起遍历value数组
            for (int i = fromIndex; i < max; i++) {
                //存在相等的字符，返回第一次出现该字符的索引位置，并终止循环
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return indexOfSupplementary(ch, fromIndex);
        }
    }



      public int indexOf(int ch) {
        return indexOf(ch, 0);//从第一个字符开始搜索
      }

indexOf(String str)

/**
    * 这是一个不对外公开的静态函数
    * source就是原始字符串，sourceOffset就是原始字符串的偏移量，起始位置。
    * sourceCount就是原始字符串的长度，target就是要查找的字符串。
    * fromIndex就是从原始字符串的第fromIndex开始遍历
    *
    */
    static int indexOf(char[] source, int sourceOffset, int sourceCount,
            String target, int fromIndex) {
        return indexOf(source, sourceOffset, sourceCount,
                       target.value, 0, target.value.length,
                       fromIndex);
    }

/**
    *
    * 从fromIndex开始遍历，返回第一次出现str字符串的位置
    *
    */
    public int indexOf(String str, int fromIndex) {
        return indexOf(value, 0, value.length,
                str.value, 0, str.value.length, fromIndex);
    }

    /**
    * 返回第一次出现的字符串的位置
    *
    */
    public int indexOf(String str) {
        return indexOf(str, 0);
    }

lastIndexOf(int ch)

/**
    * 从尾部向头部遍历，返回cn第一次出现的位置，value.length - 1就是起点 
    * 为了理解，我们可以认为是返回cn对应的字符在字符串中最后出现的位置
    *  
    * ch是字符对应的整数
    */
    public int lastIndexOf(int ch) {
        return lastIndexOf(ch, value.length - 1);
    }

public int lastIndexOf(int ch, int fromIndex)

/**
    * 从尾部向头部遍历，从fromIndex开始作为起点，返回ch对应字符第一次在字符串出现的位置
    * 既从头向尾遍历，返回cn对应字符在字符串中最后出现的一次位置，fromIndex为结束点
    *
    */
    public int lastIndexOf(int ch, int fromIndex) {
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            int i = Math.min(fromIndex, value.length - 1);
            for (; i >= 0; i--) {
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return lastIndexOfSupplementary(ch, fromIndex);
        }
    }

10、获取子串

substring(int beginIndex)

/**
    *  截取当前字符串对象的片段，组成一个新的字符串对象
    *  beginIndex为截取的初始位置，默认截到len - 1位置
    */
    public String substring(int beginIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        int subLen = value.length - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        //利用构造函数生成新的String对象
        return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
    }

substring(int beginIndex, int endIndex)

/**
    * 截取一个区间范围
    * [beginIndex,endIndex)，不包括endIndex
    */
    public String substring(int beginIndex, int endIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        if (endIndex > value.length) {
            throw new StringIndexOutOfBoundsException(endIndex);
        }
        int subLen = endIndex - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        return ((beginIndex == 0) && (endIndex == value.length)) ? this
                : new String(value, beginIndex, subLen);
    }

11、拼接

concat(String str)

/**
    * String的拼接函数
    * 例如:String  str = "abc"; str.concat("def")    output: "abcdef"
    *
    */
    public String concat(String str) {
        int otherLen = str.length();
        if (otherLen == 0) {
            return this;
        }
        //获得当前String对象的长度 
        int len = value.length;
        //将数组扩容，将value数组拷贝到buf数组中，长度为len + str.lenght
        char buf[] = Arrays.copyOf(value, len + otherLen);
        //然后将str字符串从buf字符数组的len位置开始覆盖，得到一个完整的buf字符数组
        str.getChars(buf, len);
        //生成新的Strintg对象
        return new String(buf, true);
    }

join(CharSequence delimiter, CharSequence… elements)

/**
   * 拼接CharSequence，包含String、StringBuilder、StringBuffer
   */
    public static String join(CharSequence delimiter, CharSequence... elements) {
        Objects.requireNonNull(delimiter);
        Objects.requireNonNull(elements);
        // Number of elements not likely worth Arrays.stream overhead.
        StringJoiner joiner = new StringJoiner(delimiter);
        for (CharSequence cs: elements) {
            joiner.add(cs);
        }
        return joiner.toString();
    }

12、替换

replace(char oldChar, char newChar)

//替换，将字符串中的oldChar字符全部替换成newChar
    public String replace(char oldChar, char newChar) {
        if (oldChar != newChar) {
            int len = value.length;
            int i = -1;
            char[] val = value; /* avoid getfield opcode */
            //循环len次 
            while (++i < len) {
                //找到第一个旧字符，打断循环
                if (val[i] == oldChar) {
                    break;
                }
            }
            //如果第一个旧字符的位置小于len
            if (i < len) {
               //new一个字符数组，len个长度
                char buf[] = new char[len];
                for (int j = 0; j < i; j++) {
                   //把旧字符的前面的字符都复制到新字符数组上
                    buf[j] = val[j];
                }
                 //从i位置开始遍历
                while (i < len) {
                    char c = val[i];
                    //发现旧字符就替换，不相关的则直接复制
                    buf[i] = (c == oldChar) ? newChar : c;
                    i++;
                }
                //通过新字符数组buf重构一个新String对象
                return new String(buf, true);
            }
        }
        return this;
    }

replaceAll(String regex, String replacement)

//当不是正规表达式时，与replace效果一样，都是全体换。如果字符串的正则表达式，则规矩表达式全体替换
    public String replaceAll(String regex, String replacement) {
        return Pattern.compile(regex).matcher(this).replaceAll(replacement);
    }

13、切割

split(String regex, int limit)

/**
   *  根据切割符号切割字符串
   */
    public String[] split(String regex, int limit) {
      /* 1、单个字符，且不是".$|()[{^?*+\\"其中一个
       * 2、两个字符，第一个是"\"，第二个大小写字母或者数字
       */
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            //大于0，limited==true,反之limited==false
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch, off)) != -1) {
            //当参数limit<=0 或者 集合list的长度小于 limit-1
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off, next));
                    off = next + 1;
                } else {    // last one
                    //判断最后一个list.size() == limit - 1
                    list.add(substring(off, value.length));
                    off = value.length;
                    break;
                }
            }
            //如果没有一个能匹配的，返回一个新的字符串，内容和原来的一样
            if (off == 0)
                return new String[]{this};

           // 当 limit<=0 时，limited==false,或者集合的长度 小于 limit是，截取添加剩下的字符串
            if (!limited || list.size() < limit)
                list.add(substring(off, value.length));

            // 当 limit == 0 时，如果末尾添加的元素为空（长度为0），则集合长度不断减1，直到末尾不为空
            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }
            String[] result = new String[resultSize];
            return list.subList(0, resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this, limit);
    }

split(String regex)

public String[] split(String regex) {
        return split(regex, 0);
    }

14、大小写转换

toLowerCase(Locale locale)

/**
  * 将大写字符转换为小写
  */
  public String toLowerCase(Locale locale) {
        if (locale == null) {
            throw new NullPointerException();
        }

        int firstUpper;
        final int len = value.length;

        /* Now check if there are any characters that need to be changed. */
        scan: {
            for (firstUpper = 0 ; firstUpper < len; ) {
                char c = value[firstUpper];
                //判断字符是否大写
                if ((c >= Character.MIN_HIGH_SURROGATE)
                        && (c <= Character.MAX_HIGH_SURROGATE)) {
                    int supplChar = codePointAt(firstUpper);
                    if (supplChar != Character.toLowerCase(supplChar)) {
                        break scan;
                    }
                    firstUpper += Character.charCount(supplChar);
                } else {
                    if (c != Character.toLowerCase(c)) {
                        break scan;
                    }
                    firstUpper++;
                }
            }
            return this;
        }

        char[] result = new char[len];
        int resultOffset = 0;  /* result may grow, so i+resultOffset
                                * is the write location in result */

        /* Just copy the first few lowerCase characters. */
        System.arraycopy(value, 0, result, 0, firstUpper);

        String lang = locale.getLanguage();
        boolean localeDependent =
                (lang == "tr" || lang == "az" || lang == "lt");
        char[] lowerCharArray;
        int lowerChar;
        int srcChar;
        int srcCount;
        for (int i = firstUpper; i < len; i += srcCount) {
            srcChar = (int)value[i];
            if ((char)srcChar >= Character.MIN_HIGH_SURROGATE
                    && (char)srcChar <= Character.MAX_HIGH_SURROGATE) {
                srcChar = codePointAt(i);
                srcCount = Character.charCount(srcChar);
            } else {
                srcCount = 1;
            }
            if (localeDependent ||
                srcChar == '\u03A3' || // GREEK CAPITAL LETTER SIGMA
                srcChar == '\u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE
                lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this, i, locale);
            } else {
                lowerChar = Character.toLowerCase(srcChar);
            }
            if ((lowerChar == Character.ERROR)
                    || (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) {
                if (lowerChar == Character.ERROR) {
                    lowerCharArray =
                            ConditionalSpecialCasing.toLowerCaseCharArray(this, i, locale);
                } else if (srcCount == 2) {
                    resultOffset += Character.toChars(lowerChar, result, i + resultOffset) - srcCount;
                    continue;
                } else {
                    lowerCharArray = Character.toChars(lowerChar);
                }

                /* Grow result if needed */
                int mapLen = lowerCharArray.length;
                if (mapLen > srcCount) {
                    char[] result2 = new char[result.length + mapLen - srcCount];
                    System.arraycopy(result, 0, result2, 0, i + resultOffset);
                    result = result2;
                }
                for (int x = 0; x < mapLen; ++x) {
                    result[i + resultOffset + x] = lowerCharArray[x];
                }
                resultOffset += (mapLen - srcCount);
            } else {
                result[i + resultOffset] = (char)lowerChar;
            }
        }
        return new String(result, 0, len + resultOffset);
    }

15、去空格

trim()

/**
    * 去除字符串首尾部分的空值，如,' ' or " ",非""
    * 原理是通过substring去实现的，首尾各一个指针
    * 头指针发现空值就++，尾指针发现空值就--
    * ' '的Int值为32，其实不仅仅是去空的作用，应该是整数值小于等于32的去除掉
    */
    public String trim() {
        //代表尾指针，实际是尾指针+1的大小
        int len = value.length;
        //代表头指针
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */
        //st<len,且字符的整数值小于32则代表有空值，st++
        while ((st < len) && (val[st] <= ' ')) {
            st++;
        }
        //len - 1才是真正的尾指针，如果尾部元素的整数值<=32,则代表有空值，len--
        while ((st < len) && (val[len - 1] <= ' ')) {
            len--;
        }
        截取st到len的字符串(不包括len位置)
        return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
    }

16、字符/字符串转换

toString()

//返回自己
    public String toString() {
        return this;
    }

toCharArray()

/**
   * 返回value数组的拷贝
   */
    public char[] toCharArray() {
        // Cannot use Arrays.copyOf because of class initialization order issues
        char result[] = new char[value.length];
        System.arraycopy(value, 0, result, 0, value.length);
        return result;
    }

valueOf(Object obj)

//将Object转换为字符串
    public static String valueOf(Object obj) {
        return (obj == null) ? "null" : obj.toString();
    }

17、格式化

format(String format, Object… args)

//JAVA字符串格式化
    //新字符串使用本地语言环境，制定字符串格式和参数生成格式化的新字符串。
    public static String format(String format, Object... args) {
        return new Formatter().format(format, args).toString();
    }

format(Locale l, String format, Object… args)

//使用指定的语言环境，制定字符串格式和参数生成格式化的字符串。
    public static String format(Locale l, String format, Object... args) {
        return new Formatter(l).format(format, args).toString();
    }

18、intern()

一个本地方法。

当调用intern方法时，如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串，则返回该字符串。否则，将此String对象添加到池中，并返回此对象的引用。

public native String intern();

三、常量池

在查看构造函数的时候，我们知道最常见的两种声明一个字符串对象的形式有两种：

①、通过“字面量”的形式直接赋值

String str = "hello";

②、通过 new 关键字调用构造函数创建对象

String str = new String("hello");

这两种声明方式有什么区别呢？首先了解 JDK1.7（不包括1.7）以前的 JVM 的内存分布：

Java String类源码阅读笔记_String_04

①、程序计数器：也称为 PC 寄存器，保存的是程序当前执行的指令的地址（也可以说保存下一条指令的所在存储单元的地址），当CPU需要执行指令时，需要从程序计数器中得到当前需要执行的指令所在存储单元的地址，然后根据得到的地址获取到指令，在得到指令之后，程序计数器便自动加1或者根据转移指针得到下一条指令的地址，如此循环，直至执行完所有的指令。线程私有。
②、虚拟机栈：基本数据类型、对象的引用都存放在这。线程私有。
③、本地方法栈：虚拟机栈是为执行Java方法服务的，而本地方法栈则是为执行本地方法（Native Method）服务的。在JVM规范中，并没有对本地方法栈的具体实现方法以及数据结构作强制规定，虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。
④、方法区：存储了每个类的信息（包括类的名称、方法信息、字段信息）、静态变量、常量以及编译器编译后的代码等。注意：在Class文件中除了类的字段、方法、接口等描述信息外，还有一项信息是常量池，用来存储编译期间生成的字面量和符号引用。
⑤、堆：用来存储对象本身的以及数组（当然，数组引用是存放在Java栈中的）。

在 JDK1.7 以后，方法区的常量池被移除放到堆中了，如下：

Java String类源码阅读笔记_java_05

常量池：Java运行时会维护一个String Pool（String池），也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串，并且池中的字符串的内容不重复。

①、字面量创建字符串或者纯字符串（常量）拼接字符串会先在字符串池中找，看是否有相等的对象，没有的话就在字符串池创建该对象；有的话则直接用池中的引用，避免重复创建对象。
②、new关键字创建时，直接在堆中创建一个新对象，变量所引用的都是这个新对象的地址，但是如果通过new关键字创建的字符串内容在常量池中存在了，那么会由堆在指向常量池的对应字符；但是反过来，如果通过new关键字创建的字符串对象在常量池中没有，那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
③、使用包含变量表达式来创建String对象，则不仅会检查维护字符串池，还会在堆区创建这个对象，最后是指向堆内存的对象。

String str1 = "hello";
String str2 = "hello";
String str3 = new String("hello");
System.out.println(str1==str2);//true
System.out.println(str1==str3);//fasle
System.out.println(str2==str3);//fasle
System.out.println(str1.equals(str2));//true
System.out.println(str1.equals(str3));//true
System.out.println(str2.equals(str3));//true

首先 String str1 = “hello”，会先到常量池中检查是否有“hello”的存在，发现是没有的，于是在常量池中创建“hello”对象，并将常量池中的引用赋值给str1；

第二个字面量 String str2 = “hello”，在常量池中检测到该对象了，直接将引用赋值给str2；第三个是通过new关键字创建的对象，常量池中有了该对象了，不用在常量池中创建，然后在堆中创建该对象后，将堆中对象的引用赋值给str3，再将该对象指向常量池。如下图所示：

Java String类源码阅读笔记_java_06

注意：看上图红色的箭头，通过 new 关键字创建的字符串对象，如果常量池中存在了，会将堆中创建的对象指向常量池的引用。

使用包含变量表达式创建对象：

String str1 = "hello";
String str2 = "helloworld";
String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象)
String str4 = "hello"+"world";//编译器确定为常量，直接到常量池中引用

System.out.println(str2==str3);//fasle
System.out.println(str2==str4);//true
System.out.println(str3==str4);//fasle

str3 由于含有变量str1，编译器不能确定是常量，会在堆区中创建一个String对象。而str4是两个常量相加，直接引用常量池中的对象即可。

Java String类源码阅读笔记_java_07

四、其它扩展

1、String 真的不可变吗?

String 类是用 final 关键字修饰的，不可被继承，仅此而已。

我们通过阅读源码知道，字符串是由字符组成，字符存在value数组中。

private final char value[];

value 被 final 修饰，只能保证引用不被改变，但是 value 所指向的堆中的数组，才是真实的数据，只要能够操作堆中的数组，依旧能改变数据。而且 value 是基本类型构成，那么一定是可变的，即使被声明为 private，我们也可以通过反射来改变。

所以String的不可变性仅仅是正常情况下的不可变，但绝非完全的不可变。

2、String类为什么要设计为不可变的？

便于实现字符串池（String pool）
多线程安全
避免安全问题
加快字符串处理速度

3、String对“+”的重载

在API文档上查阅到：

Java 语言提供对字符串串联符号（"+"）以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder（或 StringBuffer）类及其 append 方法实现的。字符串转换是通过 toString 方法实现的，该方法由 Object 类定义，并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息，请参阅 Gosling、Joy 和 Steele 合著的 The Java Language Specification。

可以通过代码反编译验证一下：

public class StringDemo01 {

    public static void main(String[] args) {
        String a = "abc";
        String b = "def";
        System.out.println("abcdef" == a+b);
    }
}

通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现

javap -v StringDemo.class

Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class
  Last modified 2020-6-6; size 730 bytes
  MD5 checksum 8847314e26430be9703f9490a6d8ecf3
  Compiled from "StringDemo01.java"
public class string.StringDemo01
  minor version: 0
  major version: 52
  flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
   #1 = Methodref          #12.#25        // java/lang/Object."<init>":()V
   #2 = String             #26            // abc
   #3 = String             #27            // def
   #4 = Fieldref           #28.#29        // java/lang/System.out:Ljava/io/PrintStream;
   #5 = String             #30            // abcdef
   #6 = Class              #31            // java/lang/StringBuilder
   #7 = Methodref          #6.#25         // java/lang/StringBuilder."<init>":()V
   #8 = Methodref          #6.#32         // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
   #9 = Methodref          #6.#33         // java/lang/StringBuilder.toString:()Ljava/lang/String;
  #10 = Methodref          #34.#35        // java/io/PrintStream.println:(Z)V
  #11 = Class              #36            // string/StringDemo01
  #12 = Class              #37            // java/lang/Object
  #13 = Utf8               <init>
  #14 = Utf8               ()V
  #15 = Utf8               Code
  #16 = Utf8               LineNumberTable
  #17 = Utf8               main
  #18 = Utf8               ([Ljava/lang/String;)V
  #19 = Utf8               StackMapTable
  #20 = Class              #38            // "[Ljava/lang/String;"
  #21 = Class              #39            // java/lang/String
  #22 = Class              #40            // java/io/PrintStream
  #23 = Utf8               SourceFile
  #24 = Utf8               StringDemo01.java
  #25 = NameAndType        #13:#14        // "<init>":()V
  #26 = Utf8               abc
  #27 = Utf8               def
  #28 = Class              #41            // java/lang/System
  #29 = NameAndType        #42:#43        // out:Ljava/io/PrintStream;
  #30 = Utf8               abcdef
  #31 = Utf8               java/lang/StringBuilder
  #32 = NameAndType        #44:#45        // append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
  #33 = NameAndType        #46:#47        // toString:()Ljava/lang/String;
  #34 = Class              #40            // java/io/PrintStream
  #35 = NameAndType        #48:#49        // println:(Z)V
  #36 = Utf8               string/StringDemo01
  #37 = Utf8               java/lang/Object
  #38 = Utf8               [Ljava/lang/String;
  #39 = Utf8               java/lang/String
  #40 = Utf8               java/io/PrintStream
  #41 = Utf8               java/lang/System
  #42 = Utf8               out
  #43 = Utf8               Ljava/io/PrintStream;
  #44 = Utf8               append
  #45 = Utf8               (Ljava/lang/String;)Ljava/lang/StringBuilder;
  #46 = Utf8               toString
  #47 = Utf8               ()Ljava/lang/String;
  #48 = Utf8               println
  #49 = Utf8               (Z)V
{
  public string.StringDemo01();
    descriptor: ()V
    flags: ACC_PUBLIC
    Code:
      stack=1, locals=1, args_size=1
         0: aload_0
         1: invokespecial #1                  // Method java/lang/Object."<init>":()V
         4: return
      LineNumberTable:
        line 11: 0

  public static void main(java.lang.String[]);
    descriptor: ([Ljava/lang/String;)V
    flags: ACC_PUBLIC, ACC_STATIC
    Code:
      stack=4, locals=3, args_size=1
         0: ldc           #2                  // String abc
         2: astore_1
         3: ldc           #3                  // String def
         5: astore_2
         6: getstatic     #4                  // Field java/lang/System.out:Ljava/io/PrintStream;
         9: ldc           #5                  // String abcdef
        11: new           #6                  // class java/lang/StringBuilder
        14: dup
        15: invokespecial #7                  // Method java/lang/StringBuilder."<init>":()V
        18: aload_1
        19: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        22: aload_2
        23: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        26: invokevirtual #9                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
        29: if_acmpne     36
        32: iconst_1
        33: goto          37
        36: iconst_0
        37: invokevirtual #10                 // Method java/io/PrintStream.println:(Z)V
        40: return
      LineNumberTable:
        line 14: 0
        line 15: 3
        line 17: 6
        line 21: 40
      StackMapTable: number_of_entries = 2
        frame_type = 255 /* full_frame */
          offset_delta = 36
          locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
          stack = [ class java/io/PrintStream ]
        frame_type = 255 /* full_frame */
          offset_delta = 0
          locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
          stack = [ class java/io/PrintStream, int ]
}
SourceFile: "StringDemo01.java"