SAX的原理
SAX的工作原理简单地说就是对文档进行顺序扫描,当扫描到文档(document)开始与结束、元素(element)开始与结束、文档(document)结束等地方时通知事件处理函数,由事件处理函数做相应动作,然后继续同样的扫描,直至文档结束。
大多数SAX实现都会产生以下类型的事件:
在文档内每一XML元素接受解析的前后触发元素事件。
在文档的开始和结束时触发文档处理事件。
在处理文档的DTD或Schema时产生DTD或Schema事件。
任何元数据通常都由单独的事件交付。
产生错误事件用来通知主机应用程序解析错误。
对于如下文档:
<doc>
<para>Hello, world!</para>

<title>sax parse xml</title>
</doc>

在解析文档的过程中会产生如下一系列事件:

start document
start element: doc


start element: para
characters: Hello, world!
end element: para

stat element:title

characters:sax parse xml

end element:title
end element: doc
end document
一个完整的SAX处理过程涉及如下几个步骤:
(1)创建事件处理程序。
(2)创建SAX解析器。
(4)对文档进行解析,将每个事件发送给处理程序。
(3)将事件处理程序分配给解析器。

只有将一个标签解析完了,才能添加到list;


SAX的优缺点
SAX的优点:
解析速度快
ContentHandler对象可以是多个
内存消耗少
SAX的缺点:
必须实现事件处理程序
不能修改文档
不能随机访问
SAX解析器对文档的解析过程是一种边解析边执行的过程
SAX解析器对文档的解析过程中,无需把整个文档都加载到内存中
使用SAX解析器时,可以注册多个ContentHandler对象,并行接收事件
SAX解析器对文档的解析是顺序进行的
使用SAX对文档进行解析,只能访问文档内容,无法做到向文档中添加节点,更不能删除和修改文档中的内容。
SAX的常用接口介绍
ContentHandler接口
ContentHandler是Java类包中一个特殊的SAX接口,位于org.xml.sax包中。该接口封装了一些对事件处理的方法,当XML解析器开始解析XML输入文档时,它会遇到某些特殊的事件,比如文档的开头和结束、元素开头和结束、以及元素中的字符数据等事件。当遇到这些事件时,XML解析器会调用ContentHandler接口中相应的方法来响应该事件。
ContentHandler接口的方法有以下几种:
void startDocument()
void characters(char[ ] ch, int start, int length)
void endDocument()
void startElement(String uri, String localName, String qName, Attributes atts)
void endElement(String uri, String localName, String qName)
DTDHandler接口
DTDHandler用于接收基本的DTD相关事件的通知。该接口位于org.xml.sax包中。此接口仅包括DTD事件的注释和未解析的实体声明部分。SAX解析器可按任何顺序报告这些事件,而不管声明注释和未解析实体时所采用的顺序;但是,必须在文档处理程序的startDocument()事件之后,在第一个startElement()事件之前报告所有的DTD事件。
DTDHandler接口包括以下两个方法:
void startDocumevoid notationDecl(String name, String publicId, String systemId) nt()
void unparsedEntityDecl(String name, String publicId, String systemId, String notationName)
接收注释声明事件的通知
接收未解析的实体声明事件的通知
EntityResolver接口
EntityResolver接口是用于解析实体的基本接口,该接口位于org.xml.sax包中。
该接口只有一个方法,如下:
public InputSource resolveEntity(String publicId, String systemId)
允许应用程序解析外部实体。并返回一个InputSource类的对象或者为null,用于读取实体信息
解析器将在打开任何外部实体前调用此方法。此类实体包括在DTD内引用的外部DTD子集和外部参数实体和在文档元素内引用的外部通用实体等。如果SAX应用程序需要实现自定义处理外部实体,则必须实现此接口。
ErrorHandler接口
ErrorHandler接口是SAX错误处理程序的基本接口。如果SAX应用程序需要实现自定义的错误处理,则它必须实现此接口,然后解析器将通过此接口报告所有的错误和警告。
该接口的方法如下:
void error(SAXParseException exception)
void fatalError(SAXParseException exception)
接收可恢复的错误通知
接收不可恢复的错误通知
void warning(SAXParseException exception)
接收警告的通知

 

 

 

sax解析器原理
sax解析可以对读取到的xml文件内容进行实时处理,涉及两个部分:解析器和事件处理器,创建解析器后用解析器指定要解析的文件,当读取到xml文件的一个部分时,例如开始、元素、元素内容后即触发了相应的事件,并由系统自动调用事件处理器中的对应方法,同时将读取的内容作为函数的参数传递给该函数。

首先建立一个xml文档

<?xml version="1.0" encoding="UTF-8" ?>
<bookshelf >
 <book>
  <name>One Day</name>
  <sale>23.9元</sale>
  <author>somebody</author>
 </book>
 <book>
  <name>World</name>
  <sale>10元</sale>
  <author>someone</author>
 </book>
</bookshelf>

现在开始用sax解析方式对该文档进行解析
第一步:获得解析器

SAXParser sp=SAXParserFactory.newInstance().newSAXParser();

第二步:得到读取器、
XMLReader xReader=sp.getXMLReader();

第三步:设置内容处理器,即实现ContentHandler接口的类
xReader.setContentHandler(new ListHandler());

第四步:读取xml内容

xReader.parse("src/book.xml");

第三步骤中需要将一个ContentHandler的对象作为参数传递给读取器,读取器在读取到内容时即调用该对象的相应函数对内容进行处理。在实际开发中通常是继续DefaultHandler类,该类实现了ContentHandler接口,我们只需覆盖我们关心的方法即可。

例:读取第二个标签为name的标签内容

 

  1. package sax;  
  2. import javax.xml.parsers.SAXParser;  
  3. import javax.xml.parsers.SAXParserFactory;  
  4. import org.xml.sax.Attributes;  
  5. import org.xml.sax.SAXException;  
  6. import org.xml.sax.XMLReader;  
  7. import org.xml.sax.helpers.DefaultHandler;  
  8. public class SaxParase2 {  
  9.                             public static void main(String [] args) throws Exception{  
  10.         SAXParser sp=SAXParserFactory.newInstance().newSAXParser();  
  11.         //get XMLReader  
  12.         XMLReader xReader=sp.getXMLReader();  
  13.         xReader.setContentHandler(new TagHandler());  
  14.         //read  the content  
  15.         xReader.parse("src/book.xml");  
  16.     }     
  17. }  
  18. class TagHandler extends DefaultHandler{  
  19.     private String currentTag;  
  20.     private int count=0;  
  21.       
  22.     @Override  
  23.     public void startElement(String uri, String localName, String qName,  
  24.             Attributes attributes) throws SAXException {          
  25.             currentTag=qName;  
  26.             if(qName.equals("name")){  
  27.                 count++;  
  28.             }         
  29.     }  
  30.   
  31.     @Override  
  32.     public void endElement(String uri, String localName, String qName)  
  33.             throws SAXException {  
  34.         //currentTag=null;  
  35.           
  36.     }  
  37.     @Override  
  38.     public void characters(char[] ch, int start, int length)  
  39.             throws SAXException {  
  40.         if((currentTag.equals("name")) && (count==2)){  
  41.             System.out.println(new String(ch,start,length));              
  42.         }  
  43.           
  44.     }  
  45.       
  46. }  
  47.   
  48.