java 从文本中提取url

原创

mob64ca12f770a6 2023-12-29 09:28:24 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f770a6的原创作品，请联系作者获取转载授权，否则将追究法律责任

从文本中提取URL的方法

引言

在开发过程中，我们有时候需要从文本中提取出其中的URL链接。比如在爬虫开发、网页解析以及文本分析等任务中，都可能会遇到这个需求。本文将介绍如何使用Java提取文本中的URL。

流程图

flowchart TD
    A[开始] --> B[读取文本]
    B --> C[提取URL]
    C --> D[保存URL]
    D --> E[结束]

具体步骤

读取文本：首先，我们需要将文本文件读入程序中。可以使用Java的文件读取功能实现。下面是一个例子：

String filePath = "path/to/your/text/file.txt"; // 替换为你的文本文件路径
String content = new String(Files.readAllBytes(Paths.get(filePath)));

这段代码将读取指定路径的文本文件，并将文件内容存储在一个字符串变量中。

提取URL：接下来，我们需要从文本中提取出URL。可以使用正则表达式来匹配URL的模式。下面是一个提取URL的正则表达式：

String pattern = "(?i)\\b((?:https?://|www\\d{0,3}[.]|[a-z0-9.\\-]+[.][a-z]{2,4}/)(?:[^\\s()<>]+|\\(([^(\\s()<>]+|\\(([^(\\s()<>]+\\)))*\\))+(?:\\(([^(\\s()<>]+|\\(([^(\\s()<>]+\\)))*\\))|[^(\\s`!\\[\\]{};:'\".,<>?«»“”‘’]))*)"; // URL提取正则表达式
Pattern r = Pattern.compile(pattern);
Matcher m = r.matcher(content);
List<String> urls = new ArrayList<>();
while (m.find()) {
    urls.add(m.group());
}

这段代码使用了正则表达式来匹配文本中的URL，并将匹配结果存储在一个列表中。

保存URL：最后，我们需要将提取到的URL保存起来。可以将URL保存到一个文件中，或者存储到数据库中，根据实际需求进行选择。下面是一个将URL保存到文件中的例子：

String outputFilePath = "path/to/your/output/file.txt"; // 替换为你的输出文件路径
try (BufferedWriter writer = new BufferedWriter(new FileWriter(outputFilePath))) {
    for (String url : urls) {
        writer.write(url);
        writer.newLine();
    }
}

这段代码将提取到的URL逐行写入到指定的文件中。