【java】html解析

转载

mob604756f828bf 2012-08-09 21:28:00

文章标签 html 字符串 html页面中文文档获取标签 文章分类 Android 移动开发

一、首推Jsoup（凭直接首推的，对该类库不熟悉）

中文文档： http://www.open-open.com/jsoup/parsing-a-document.htm

Jsoup使用： http://www.iteye.com/topic/1010581

最简单实用： http://hongmin118.iteye.com/blog/1229705

/**
     * 解析一个html字符串，只得到此字符串中的文本
     * @param html
     * @return
     */
    public static String html2txt(String html) {
        //<span style="color: rgb(229, 51, 51); background-color: rgb(0, 153, 0); font-weight: bold; font-style: italic; text-decoration: underline;">测试1</span>
        Document document = Jsoup.parse(html);
        String content = document.text();
        return content;
    }

自己的代码：

//读取了html的全部文字部分，没有标签
//data可以是不完整的html页面数据
Document doc = Jsoup.parse(data);
text = doc.text();

//获取全部图片标签
media = doc.select("img[src]");
//获取标签的链接
String imgurl = src.attr("abs:src");

二、htmlparser

使用：http://free0007.iteye.com/blog/1131163

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。