编写xml文档时,需要先使用文档声明xml文档。且必须出现在文档的第一行。

最简单的语法:<?xml version="1.0"?>

例如:


<?xml version="1.0" encoding="GB2312" standalone="yes" ?>

encoding属性说明文档所使用的字符编码,默认为UTF-8。保存在磁盘上的文件编码要与声明编码一致。

standalone属性说明文档是否独立,即是否依赖其他文档。


约束:

xml都是用户自定义的标签,若出现小小的错误,软件程序就将不能正确地获取文件中的内容而报错。(如:Tomcat)

xml技术中,可以编写一个文档来约束一个xml的书写规范,这个文档称之为约束。

两个概念:

良好的xml:遵循xml语法的xml

有效的xml:遵循约束文档的xml

总之:约束文档定义了xml中允许出现的元素名称、属性及元素出现的顺序等等。

----DTD约束

DTD约束文档可以在xml文档中直接定义,也可以作为单独的文档进行编写(单独的文档必须以UTF-8编码进行保存)

例如dtd文件约束:

<!ELEMENT booktable (book+) >

<!ELEMENT book (name,author,price) >

<!ELEMENT name (#PCDATA) >

<!ELEMENT author (#PCDATA) >

<!ELEMENT price (#PCDATA) >



---xml文件的引用

<?xml version="1.0" encoding="utf-8"?>

<!DOCTYPE booktable SYSTEM "yeshu.dtd" >

<booktable>

<book>

<name>HTML</name>

<author>gdy</author>

<price>20.03</price>

</book>

<book>

<name>css</name>

<author>gdy</author>

<price>33.3</price>

</book>

</booktable>

-----------------------------------

其中:【element】表示一个元素

【(book+)】表示该元素下面至少有一个book元素

【(name author price)】表示在book元素下面只能出先name author price元素

【(#PCDATA)】表示在该元素中,不能出现子元素,只能是文本数据

xml使用DOCTYPE声明语句来指明它所遵循的DTD文档,有两种形式:

1.当引用DTD文档在本地时,采用如下方式:

<!DOCTYPE 根元素 SYSTEM “DTD文档路径”>

2.如引用的DTD文档在公共网络上时,采用如下方式:

<!DOCTYPE 根元素 PUBLIC "DTD名称"
"DTD文档的URL">


例如:

<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">





语法规则:

<!ELEMENT 元素名称 使用规则>

使用规则:

【(#PCDATA)】表示元素的主体内容只能是普通的文本(Parsed Character Data)

【EMPTY】用于指示元素的主体为空。比如<br/>

【ANY】用于指示元素的主体为任意类型。

【(子元素)】指示元素中包含的子元素

定义子元素及描述它们的关系:

如果子元素用逗号分开,说明必须按照声明顺序去编写xml文档。

如:<!ELEMENT FILE (TITLE,AUTHOR,EMAIL)>

如果子元素用“|”分开,说明任选其一

如:<!ELEMENT FILE (TITLE|AUTHOR|EMAIL)>

用 +、*、?来标示元素出现的次数

如果元素后面没有【+*?】标示必须有且只能出现一次

【+】表示至少出现一次,一次或多次

【*】表示可以有可以无,零次,一次或多次

【?】表示可以有也可以无,有的话只能有一次。零次或一次

如:<!ELEMENT MYFILE ((TITLE*,AUTHOR?,EMAIL)*|COMENT)>


在DTD文档中使用ATTLIST关键字来为一个元素声明属性。

语法:

<!ATTLIST 元素名

属性名1
属性值类型
设置说明

属性名2
属性值类型 设置说明

...

>

例如:<!ATTLIST 商品

类别 CDATA #REQUIRED

颜色 CDATA #IMPLIED

>

对应的xml为<商品 类别=“服装" 颜色="黄色" />



属性值类型:

【CDATA】表示属性的取值为普通的文本字符串

【ENUMRATED】(DTD没有此关键字):表示枚举,只能从枚举列表中任选其一,如(鸡肉|牛肉|猪肉|鱼肉)

【ID】表示属性的取值不能重复

设置说明

【#REQUIRED】表示该属性必须出现

【#IMPLIED】表示该属性可有可无

【#FIXED】表示属性的取值为一个固定值,语法#FIXED "固定值"

直接值:表示属性的取值为该默认值


例如:


1.
<!ATTLIST 页面作者

姓名
CDATA #IMPLIED
//表示该值可有可无

年龄
CDATA #IMPLIED
//表示该值可有可无

联系信息
CDATA #REQUIRED
//表示该值必须填写

网站业务
CDATA #FIXED "页面作者"
//表示该值必须是"页面作者"

个人爱好
CDATA "上网"
//表示该值如果不填写,默认值为"上网"

>


2.<?xml version="1.0" encoding="GB2312" standalone="yes" ?>

<!DOCTYPE 购物篮 [

<!ELEMENT 肉 EMPTY>
//定义了一个【肉】元素

<!ATTLIST 肉 品种 (鸡肉|牛肉|猪肉|鱼肉) "鸡肉">
//表示【肉】属性里面有一个属性为"品种"的属性,其值可以选,如果不写,默认值为"肉鸡"

]>

<购物篮>

<肉 品种="鱼肉" />

<肉 品种="牛肉" />

<肉/>

</购物篮>


3.ID表示属性的设置值必是唯一值。

例如:


<?xml version="1.0" encoding="GB2312" ?>

<!DOCTYPE 联系人列表[

<!ELEMENT 联系人列表 ANY>
//可以为任意一个值

<!ELEMENT 联系人(姓名,EMAIL)
//可选

<!ELEMENT 姓名(#PCDATA)>
//同下

<!ELEMENT EMAIL(#PCDATA)>
//表示在该元素中不能出现子元素,只能是文本数据


<!ATTLIST 联系人
编号
ID
#REQUIRED>
//表示【联系人】必须出现一个属性为:"编号" 并且该属性值必须是唯一的

]>


<联系人列表>

<联系人 编号="a">

<姓名>张三</姓名>

<EMAIL>zhagnshan@qq.com</EMAIL>

</联系人>

<联系人 编号="b">

<姓名>李四</姓名>

<EMAIL>zhagnshan@qq.com</EMAIL>

</联系人>

</联系人列表>

定义实体就是为一段内容指定一个名称,使用时通过这个名称就可以引用其所代表的内容。

在DTD文档中使用ENTITY关键字来声明一个实体。

实体可分为:引用实体和参数实体,两者的语法不同

【引用实体:】

概念:在DTD中定义,在xml中使用

语法:<!ENTITY 实体名称 "实体内容">

引用方式(注意是在xml中使用):&实体名称;

例如:


DTD中定义:

<!ENTITY copyright "引用实体">

XML中引用:

©right;


【参数实体:】

概念:在DTD中定义,在DTD中使用

语法:<!ENTITY % 实体名称 "实体内容">

引用方式(注意是在DTD中使用):%实体名称

例如:


DTD中定义:

<!ENTITY % TAG_NAMES "姓名|EMAIL|电话|地址">

DTD中引用:

<!ELEMENT 个人信息 (%TAG_NAMES;生日)>

<!ELEMENT 客户信息 (%TAG_NAMES;|公司名)>



XML解析方式分为两种:DOM方式和SAX方式

DOM:Document Object Model,文档对象模型。这种方式是W3C推荐的处理XML的一种方式。

SAX:Simple API for XML。这种方式不是官方标准,属于开源社区XML-DEV,几乎所有的XML解析器都支持它。

XML解析开发包

JAXP:是SUN公司推出的解析标准实现。

Dom4J:是开源组织推出的解析标准实现。(牛,大家都在用,包括SUN公司的一些技术的实现都在用)

JDom:是开源组织推出的解析开发包。