Dom4j格式化转义字符问题
 
1、不得不说的XML CDATA部件
 
在XML文档中的所有文本都会被解析器解析。
 
只有在CDATA部件之内的文本会被解析器忽略。
 
不合法的XML字符必须被替换为相应的实体。
 
如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。
 
&lt; < 小于号
&gt; > 大于号
&amp; &
&apos; ' 单引号
&quot; " 双引号

实体必须以符号"&"开头,以符号";"结尾。
注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。

CDATA部件
在CDATA内部的所有内容都会被解析器忽略。
如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:

CDATA注意事项:
CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将很有可能出错哦。
同样要注意在字符串"]]>"之间没有空格或者换行符。
 
2、Dom4j格式化转义字符问题
 
person.xml
<?xml version="1.0" encoding="UTF-8"?>
<person>
        <name>张三</name>
        <addr><![CDATA[经三路<鑫苑>19F]]></addr>
</person>
 
上面的XML在被Dom4j格式化的时候,自动会被转义,转义后的内容如下:
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
 
这样,显然不是想要的结果,因为CDATA不需要再转义了。如何处理该问题,看下面的程序的处理:
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;

import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;

/**
* Created by IntelliJ IDEA.
*
* @author leizhimin 2010-7-10 16:03:39
*/

public class Person {
        private String name;
        private String addr;

        public Person(String name, String addr) {
                this.name = name;
                this.addr = addr;
        }

        public static void main(String[] args) {
                Person p = new Person("张三", "经三路<鑫苑>19F");
                p.showXml();
        }

        public void showXml() {
                String xml1, xml2, xml3;
                Document doc = DocumentHelper.createDocument();
                doc.setXMLEncoding("GBK");
                Element root = doc.addElement("person");
                if (addr != null)
                        addElement(root, "toname", "<![CDATA[" + this.addr + "]]>");
                else
                        addElement(root, "toname", this.addr);

                xml1 = doc.asXML();                                        //默认转义
                xml2 = formatXml(doc, "GBK", true);        //转义
                xml3 = formatXml(doc, "GBK", false);     //不转义
                System.out.println(xml1);
                System.out.println("-------------------------");
                System.out.println(xml2);
                System.out.println("-------------------------");
                System.out.println(xml3);
        }

        /**
         * 在指定的元素下添加一个新的子元素
         *
         * @param e         父元素
         * @param name    子元素名
         * @param value 子元素值
         * @return 新加子元素
         */

        public static Element addElement(Element e, String name, Object value) {
                Element x = e.addElement(name);
                if (value == null || "".equals(value.toString().trim())) {
                        x.setText("");
                } else if (value instanceof Date) {
                        x.setText(DateToolkit.toISOFormat((Date) value));
                } else {
                        x.setText(value.toString());
                }
                return x;
        }

        /**
         * 格式化XML文档
         *
         * @param document xml文档
         * @param charset    字符串的编码
         * @param istrans    是否对属性和元素值进行转移
         * @return 格式化后XML字符串
         */

        public static String formatXml(Document document, String charset, boolean istrans) {
                OutputFormat format = OutputFormat.createPrettyPrint();
                format.setEncoding(charset);
                StringWriter sw = new StringWriter();
                XMLWriter xw = new XMLWriter(sw, format);
                xw.setEscapeText(istrans);
                try {
                        xw.write(document);
                        xw.flush();
                        xw.close();
                } catch (IOException e) {
                        System.out.println("格式化XML文档发生异常,请检查!");
                        e.printStackTrace();
                }
                return sw.toString();
        }
}
 
输出结果:
<?xml version="1.0" encoding="GBK"?>
<person><toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[经三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>

Process finished with exit code 0
 
可以看出,最后一种输出是真正想要的结果。
 
因此,要控制转义的问题,必须对XML重新格式化,格式化的时候,需要设置:
        xw.setEscapeText(false);