java解析rss订阅 rss java

转载

blueice 2023-12-08 22:24:55

文章标签 java解析rss订阅 java rss header sun 文章分类 Java 后端开发

主要有一下几种:
    1:Rome: http://wiki.java.net/bin/view/Javawsxml/Rome Rome是 java.net 上的一个开源项目，现在的版本是0.5。为什么叫Rome呢,按它的介绍上的说法，有个“条条大路通罗马”的意思，有些RSS的意味。Rome可能是 sun 公司从自己某个子项目中抽离出来的，package和类的命名就象j2sdk一样感觉规范。功能上支持RSS的所有版本及 Atom 0.3(Atom是和RSS类似的一种内容聚合的方式)。Rome 本身是提供API和功能实现.
    2:rssutils: http://gceclub.sun.com.cn/staticcontent/html/2004-04-22/rss.html rssutils是一个工具包，sun 的 develope站点上有文章 RSS Utilities: A Tutorial 专门介绍用taglib 显示RSS内容，附带的可以下载这个工具包，但我从网上搜索不到它的出处，自然也无法看到它的源码。但从反编译的代码来看，也是sun公司内部高手所做，设计精巧，代码简练。实现一个handler，用sax的方式解析xml内容，handler内部用反射和javabean的机制构造RSS元素对象并赋值。
    3:rsslib4j: http://sourceforge.net/projects/rsslib4j rsslib4j 是 sourceforget 上的项目，同样支持所有RSS版本。
    4:rsslibj:http://enigmastation.com/rsslibj/
    5:总结
Rome:
优 - 1）可扩展性好，有前途。2）功能强大，除了用来解析RSS，还可以聚合和构造RSS。
劣 - 1）兼容性待加强，2）绑定jdom。
rssutils:
优 - 1）代码设计精妙，值得学习。2）附带 taglib 实现，直接可在 jsp 中应用。
劣 - 1）没有源码。 2）兼容性有待加强。 3）功能较弱，只能用来解析RSS，没有聚合和构造RSS功能。
rsslib4j:
优 - 1）简单有效，体积小。2）兼容性不错。
劣 - 1）有小bug。2）功能较弱，只能用来解析RSS，没有聚合和构造RSS功能。
rsslibj:
优 - 1）简单有效，体积小,才25K。2）能解析和生成RSS(动态和静态)
劣 - 1）有小bug。2）版本很久没有更新了，陈旧.

Rome

Rome 是 java.net 上的一个开源项目，现在的版本是0.5。为什么叫Rome呢，按它的介绍上的说法，有个“条条大路通罗马”的意思，有些RSS的意味。Rome可能是 sun 公司从自己某个子项目中抽离出来的，package和类的命名就象j2sdk一样感觉规范。功能上支持RSS的所有版本及 Atom 0.3(Atom是和RSS类似的一种内容聚合的方式)。Rome 本身是提供API和功能实现，其下独立出一个 rome-fetcher 项目，专门用来读取RSS内容。正和我意啊。

参照 fetcher 上的范例，解析 RSS 相当简单，代码片断如下：

Java代码

1. FeedFetcher fetcher = new
2. SyndFeed feed = fetcher.retrieveFeed(feedUrl);   
3. System.out.println(feedUrl + ” has a title: ” + new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) + ” and contains “ + feed.getEntries().size() + ” entries.”);   
4. for
5. SyndEntry entry = (SyndEntry) iter.next();   
6. System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);   
7. }

FeedFetcher fetcher = new HttpURLFeedFetcher();
SyndFeed feed = fetcher.retrieveFeed(feedUrl);
System.out.println(feedUrl + ” has a title: ” + new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) + ” and contains “ + feed.getEntries().size() + ” entries.”);
for (Iterator iter = feed.getEntries().iterator(); iter.hasNext(); ) {
SyndEntry entry = (SyndEntry) iter.next();
System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);
}

为什么用 new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) 进行转码，是因为Rome来解析新浪新闻 RSS的时候试图从 URLConnection 的 header 中得到编码信息，否则总是用 iso8859-1。而新浪的RSS response header 中不包含编码信息，所以要做一番转码。另外还有就是 entry.getPubDate() 也将返回null，因为Rome 用多种pattern 去试图解析时间信息，新浪的时间格式还是符合RFC822的，但是Rome 使用SimpleDateFormat 来解析时间，它忘记了一点，就是 SimpleDateFormat的解析是关联于 Locale 的，所以由于我本地locale是China，SimpleDateFormat的parse方法解析不出英文的时间字符。以上代码前加 Locale.setDefault(Locale.Englisth) 可以搞定，但总觉得不爽。

如果也不想转码的话，Rome 还提供了一个 XmlReader 的类，通过分析 header 和 xml 内容推断 encoding，修改 HttpURLFeedFetcher 的源码 :

Java代码

1. // 改变 InputStreamReader , 换用 XmlReader 
2. //InputStreamReader reader = new InputStreamReader(is, ResponseHandler.getCharacterEncoding(connection)); 
3. XmlReader reader = new
4. SyndFeedInput input = new
5. SyndFeed feed = input.build(reader);

// 改变 InputStreamReader , 换用 XmlReader
//InputStreamReader reader = new InputStreamReader(is, ResponseHandler.getCharacterEncoding(connection));
XmlReader reader = new XmlReader(connection);
SyndFeedInput input = new SyndFeedInput();
SyndFeed feed = input.build(reader);

那么中文不用转码也能正确显示了，不过修改源码后我再解析百度新闻 RSS 的时候，底层的JDOM却会抱错说xml 格式不正确。也许Rome的开发者也遇到过这样的问题，所以才没有使用 XmlReader。

包结构

com.sun.syndication.feed 提供RSS and Atom beans的父类
 com.sun.syndication.feed.atom 提供实现Atom feeds核心元素的beans
 com.sun.syndication.feed.module 提供处理聚合modules的beans
 com.sun.syndication.feed.rss 提供实现Rss feeds核心元素的beans
 com.sun.syndication.feed.synd 我们主要用的就是这个包，SyndFeed and SyndEntryImpl 
 com.sun.syndication.io  提供对读取和分析feeds的输入和输出

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。