java 做人工智能 java人工智能教程

转载

勇往直前的巨人 2024-03-14 11:55:03

文章标签 java 做人工智能 java 自然语言处理人工智能 Java 文章分类 Java 后端开发

作者：明明如月学长

自然语言处理（NLP）是人工智能（AI）的一个分支，使计算机能够像人类一样理解书面或口头语言。
在这个 AI 革命时代，NLP 具有多样化的应用。
在本教程中，我们将探讨 Java 中不同的 NLP 库，以及如何使用 Apache OpenNLP 和 Stanford CoreNLP 实现一些 NLP 任务。

2、什么是 NLP

NLP 使计算机能够像人类一样处理文本和单词。它将计算语言学与统计学、深度学习和机器学习相结合。
人们每天通过各种媒介在线互动。在这个过程中，他们分享了不同类型的数据，如文本、语音、图像等。这些数据对于理解人类行为和习惯至关重要。因此，它们被用来训练计算机模仿人类智能。
NLP利用数据训练机器模仿人类的语言行为。为了实现这一目标，它遵循一个包含若干步骤的过程：

将文本划分为更小的单元，如句子或单词。
对文本进行分词，即为每个单词分配一个唯一标识符。
去除停用词，这些是在文本中不增加太多意义的常用词，如“the”、“a”、“and”等。
对文本进行词干提取或词形还原，即将每个单词简化为其词根形式或词典形式。
为每个单词标注其词性。
为每个单词标注其命名实体，如人物、地点、组织等。

3、NLP 的应用案例

NLP 是许多现代实际应用中机器智能的驱动力。
机器翻译是一个示例应用场景。我们有可以将一种特定语言翻译成另一种语言的系统。谷歌翻译就是一个例子。驱动机器翻译的技术基于NLP算法。
此外，另一个热门的应用案例是垃圾邮件检测。大多数流行的电子邮件服务提供商使用垃圾邮件检测器来确定收到的邮件是否为垃圾邮件。垃圾邮件检测应用了NLP文本分类技术，根据其语言模式识别垃圾邮件。
此外，AI 聊天机器人现在非常普遍。流行的例子包括 Siri、Google Assistant、Alexa 等。这些应用程序使用语音识别和自然语言识别语音中的模式，并做出适当、有帮助的回应。
NLP 是这些应用程序的核心逻辑，因为它使它们能够处理自然语言输入和输出，如文本和语音，并理解其中的意义和意图。

4、OpenNLP

Apache OpenNLP 是一个利用机器学习处理自然语言文本的工具包。它为常见的 NLP 任务（如分词、分割、词性标注等）提供支持。

java 做人工智能 java人工智能教程_自然语言处理

Apache OpenNLP 的主要目标是为 NLP 任务提供支持，并为不同语言提供大量预构建模型。此外，它还提供了一个命令行界面（CLI），便于实验和训练。

Apache OpenNLP 有各种预构建模型可供下载。让我们使用一个预构建模型来实现一个简单的语言检测器。首先，让我们将 OpenNLP 依赖添加到 pom.xml 中：

<dependency>
    <groupId>org.apache.opennlp</groupId>
    <artifactId>opennlp-tools</artifactId>
    <version>2.1.1</version>
</dependency>

接下来，让我们使用 langdetect-183.bin预构建模型来实现语言检测器：

@Test
void givenTextInEnglish_whenDetectLanguage_thenReturnsEnglishLanguageCode() {
        
    String text = "the dream my father told me";
    LanguageDetectorModel model;
    
    try (InputStream modelIn = new FileInputStream("langdetect-183.bin")) {
        model = new LanguageDetectorModel(modelIn);
    } catch (IOException e) {
        return;
    }
    
    LanguageDetectorME detector = new LanguageDetectorME(model);
    Language language = detector.predictLanguage(text);
    assertEquals("eng", language.getLang());
}

在上面的示例中，我们从 OpenNLP 获取预构建模型以检测语言，并将其放置在根目录中。然后，我们定义输入数据。接下来，我们加载语言检测器模型。最后，我们创建一个新的 LanguageDetectorME 实例并尝试检测语言。我们使用返回的语言测试预期的语言。

5、Stanford NLP

Stanford NLP 团队提供了允许机器处理、生成和理解人类文本和语言的算法。

java 做人工智能 java人工智能教程_java_02

CoreNLP 是由 Stanford NLP 团队用 Java 编写的一组程序，可以执行各种 NLP 任务，如分词、词性标注、词形还原等。它可以通过命令行、Java 代码或对服务器的调用来使用。

让我们看一个使用 Stanford CoreNLP 进行分词的例子。我们需要将其依赖项添加到 pom.xml 中：

<dependency>
    <groupId>edu.stanford.nlp</groupId>
    <artifactId>stanford-corenlp</artifactId>
    <version>4.5.3</version>
</dependency>

接下来，让我们进行分词：

@Test
void givenSampleText_whenTokenize_thenExpectedTokensReturned() {
    Properties props = new Properties();
    props.setProperty("annotators", "tokenize");
    StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
        
    String text = "The german shepard display an act of kindness";
    Annotation document = new Annotation(text);
    pipeline.annotate(document);
        
    List<CoreMap> sentences = document.get(CoreAnnotations.SentencesAnnotation.class);
    StringBuilder tokens = new StringBuilder();
    
    for (CoreMap sentence : sentences) {
        for (CoreLabel token : sentence.get(CoreAnnotations.TokensAnnotation.class)) {
            String word = token.get(CoreAnnotations.TextAnnotation.class);
            tokens.append(word).append(" ");
        }
    }
    assertEquals("The german shepard display an act of kindness", tokens.toString().trim());
}

在上面的示例中，我们使用分词注释器设置 StanfordCoreNLP 对象。
接下来，我们创建一个新的 Annotation 实例。最后，我们实现从示例句子生成令牌的逻辑。