一、首推Jsoup(凭直接首推的,对该类库不熟悉)
中文文档: http://www.open-open.com/jsoup/parsing-a-document.htm
Jsoup使用: http://www.iteye.com/topic/1010581
最简单实用: http://hongmin118.iteye.com/blog/1229705
/** * 解析一个html字符串,只得到此字符串中的文本 * @param html * @return */ public static String html2txt(String html) { //<span style="color: rgb(229, 51, 51); background-color: rgb(0, 153, 0); font-weight: bold; font-style: italic; text-decoration: underline;">测试1</span> Document document = Jsoup.parse(html); String content = document.text(); return content; }
自己的代码:
//读取了html的全部文字部分,没有标签 //data可以是不完整的html页面数据 Document doc = Jsoup.parse(data); text = doc.text(); //获取全部图片标签 media = doc.select("img[src]"); //获取标签的链接 String imgurl = src.attr("abs:src");
二、htmlparser