本文介绍如何在 Java 中转义 HTML 字符和符号。我们可以使用 Apachecommons-text
和StringEscapeUtils.escapeHtml4(str)
方法来转义 Java 中的 HTML 符号和字符。
如何转义 HTML 标签
我们识别标记及其特征以避免和转义 Java 程序中的 HTML 标记。假设我们有一个<head>
标签;我们知道以开头<
和结尾的东西>
将是特定场景中的标签。
所以我们可以利用 HTML 标签的这些特性,对 HTML 标签进行转义。为了更好地理解它,让我们看看下面的例子。
<html lang="en-US">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<link rel="shortcut icon" href="https://www.w3schools.com/images/w3schools_green.jpg" type="image/x-icon">
</head>
在上面的示例中,我们有多个 HTML 标签,例如<link>
、<HTML>
、<head>
和<meta>
。这些标签是 HTML 标签,每个标签对浏览器都有特殊的意义。
为了更好地理解这一点,您可以转到任何网页,右键单击该页面并选择Inspect
查看该网页的结构,该结构由不同的 HTML 标签组成。
在 HTML 中,每个标签都包含在小于<
和大于>
符号中。所以重要的是要注意这些<
,>
符号有一些特定的含义,如果你在特定代码中使用 HTML 实体名称而不是那些 HTML 字符,浏览器不会隐藏标签,而是会取代实际的文本的解释它。
所以替换<
为实体名称<
。并替换>
为实体名称>
。
<html lang="en-US">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<link rel="shortcut icon" href=" https://www.w3schools.com/images/w3schools_green.jpg " type="image/x-icon">
</head>
现在我们已经了解了转义 HTML,让我们了解如何在 Java 中转义 HTML。
如何在 Java 中转义 HTML
正如本指南开头所讨论的,我们将使用第三方服务Apache 。它是一个以美国西南部印第安部落命名的软件基金会。
Apache 的开发人员为 Apache 构建了软件,引入了一些非常有用和有用的工具来加快开发过程。
这些有用的工具之一用于转义字符串中的 HTML。您需要做的就是在pom.xml
文件中包含依赖项。
导入Commons-Text依赖项以StringEscapeUtils在 Java中使用
要使用StringEscapeUtils
,您必须导入commons-text
依赖项。
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-text</artifactId>
<version>3.12</version>
</dependency>
- 将此依赖项插入您的 POM 中,然后按以下步骤操作。
- 我们需要用来在 Java 中转义 HTML 的方法是
StringEscapeUtils.escapeHtml4()
和StringEscapeUtils.unescapeHtml4()
. - 在您的 Java 编译器中编写此代码。
String html = "<html lang=\"en-US\">\r\n"
+ "<head>\r\n"
+ " <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
+ " <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
+ "</head>";
// This is used to escape html
String escapedOutput = StringEscapeUtils.escapeHtml4(html);
System.out.println(escapedOutput); // printing the output
这String html
只是我们在示例 1 中使用的 HTML 代码片段。
这个程序的核心StringEscapeUtils.escapeHtml4(html)
是负责在这个上下文中转义 HTML。该类StringEscapeUtils
有不同的方法,但我们将使用escapeHtml4()
.
现在,如果您尝试运行上述代码,您将看到在本文第一部分中看到的转义输出。
在 Java 中获取原始的未转义数据
使用相同的 Apache 类StringEscapeUtils
,我们可以轻松地将字符串转义为原始形式。为此,您必须在 Java 编译器中使用以下代码。
String html = "<html lang=\"en-US\">\r\n"
+ "<head>\r\n"
+ " <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\r\n"
+ " <link rel=\"shortcut icon\" href=\" https://www.w3schools.com/images/w3schools_green.jpg \" type=\"image/x-icon\">\r\n"
+ "</head>";
String escapedOutput = StringEscapeUtils.escapeHtml4(html);
String original = StringEscapeUtils.unescapeHtml4(escapedOutput);
System.out.println(original);
在上面的代码中,我们使用了class after的unescapeHtml4()
方法将转义数据转换为非转义数据。StringEscapeUtils
escapeHtml4()
运行上面的代码,你会得到这个输出。
<html lang="en-US">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<link rel="shortcut icon"
href=" https://www.w3schools.com/images/w3schools_green.jpg " type="image/x-icon"> </head>