html java解析string java 解析 html

转载

mob64ca141834d3 2023-08-19 00:26:21

文章标签 html java解析string java xpath解析html HTML 属性值 html 文章分类 Java 后端开发

Jsoup是什么?Jsoup是一款java用于解析HTML的解析器，就类似XML解析器用于解析XML。Jsoup它解析HTML成为真实世界的HTML。

它与jquery选择器的语法非常相似，并且非常灵活容易使用以获得所需的结果。在开发爬虫的时候

，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容,就可以使用jsoup这类HTML解析器了，可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码,但是只支持HTTP，HTTPS协议，支持不够丰富。所以，主要还是用来对HTML进行解析。其中,要被解析的HTML可以是一个HTML的字符串，可以是一个UR，可以是一个文件。下面我们介绍下Jsoup的入门教程。

一、快速入门

1. 导入jar包

2. 获取Document对象

3. 获取对应的标签Element对象

4. 获取数据

二、类的说明

1. Jsoup：工具类，可以解析html或xml文档，返回Document

* parse：解析html或xml文档，返回Document

* parse(File in, String charsetName)：解析xml或html文件的。

* parse(String html)：解析xml或html字符串

* parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象

2. Document：文档对象。代表内存中的dom树

* 获取Element对象

* getElementById(String id)：根据id属性值获取唯一的element对象

* getElementsByTag(String tagName)：根据标签名称获取元素对象集合

* getElementsByAttribute(String key)：根据属性名称获取元素对象集合

* getElementsByAttributeValue(String key, String

value)：根据对应的属性名和属性值获取元素对象集合

3. Elements：元素Element对象的集合。可以当做 ArrayList来使用

(1)获取子元素对象

* getElementById(String id)：根据id属性值获取唯一的element对象

* getElementsByTag(String tagName)：根据标签名称获取元素对象集合

* getElementsByAttribute(String key)：根据属性名称获取元素对象集合

* getElementsByAttributeValue(String key, String

value)：根据对应的属性名和属性值获取元素对象集合

(2)获取属性值

* String attr(String key)：根据属性名称获取属性值

(3)获取文本内容

* String text():获取文本内容

* String html():获取标签体的所有内容(包括字标签的字符串内容)

5. Node：节点对象

* 是Document和Element的父类

三、快捷查询方式

1. selector:选择器

* 使用的方法：Elements select?(String cssQuery)

* 语法：参考Selector类中定义的语法

2. XPath：XPath即为XML路径语言，它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言

* 使用Jsoup的Xpath需要额外导入jar包。

* 查询w3cshool参考手册，使用xpath的语法完成查询

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：MySQL 全文索引和倒排索引的区别 mysql全文索引 innodb

下一篇：if python 跳出循环语句 python if循环不终止

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

html java解析string java 解析 html

html java解析string java 解析 html

51CTO博客