一、首推Jsoup(凭直接首推的,对该类库不熟悉)

中文文档: http://www.open-open.com/jsoup/parsing-a-document.htm

Jsoup使用:  http://www.iteye.com/topic/1010581

最简单实用: http://hongmin118.iteye.com/blog/1229705

/**
     * 解析一个html字符串,只得到此字符串中的文本
     * @param html
     * @return
     */
    public static String html2txt(String html) {
        //<span style="color: rgb(229, 51, 51); background-color: rgb(0, 153, 0); font-weight: bold; font-style: italic; text-decoration: underline;">测试1</span>
        Document document = Jsoup.parse(html);
        String content = document.text();
        return content;
    }

自己的代码:

//读取了html的全部文字部分,没有标签
//data可以是不完整的html页面数据
Document doc = Jsoup.parse(data);
text = doc.text();

//获取全部图片标签
media = doc.select("img[src]");
//获取标签的链接
String imgurl = src.attr("abs:src");

 

二、htmlparser

使用:http://free0007.iteye.com/blog/1131163