nlp rpa NLP RPA OCR

转载

mob6454cc6ff2b9 2023-08-14 13:46:25

自然语言处理（Nature Language Processing，NLP）是一门融合了计算机科学，人工智能以及语言学的交叉学科。

通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标——理解人类语言或人工智能。

语音、图像和文本
自然语言处理系统的输入源一共有3个，语音，图像和文本，但前两者存储的信息总量没有文本多，所以需要先转换为文本再处理，转换分别称为语音识别(Speech Recognition)和光学字符识别(OCR)。
词法分析
主要任务是将文本分隔为有意义的词语 (中文分词)，消除每个词语的歧义(词性标注)，再识别出一些特殊的专有名词(命名体识别)。
信息抽取
词法分析之后，文本已经呈现结构化趋势。显示为有意义的单词列表。根据单词与标签，我们可以抽取出一部分有用的信息，从简单的高频词到高级算法提取关键词。
句法分析
词法分析只能得到零散的词汇信息，计算机不知道词语之间的关系。句法分析的目标就是，得到句子中词语之间的关系。
语义分析与篇章分析
相对于句法分析来看，语义分析侧重于语义而非语法，它包括词义消歧(确定一个词在语境中的含义)、语义角色标注(标注句子中谓语与其他成分的关系)，语义依存分析(分析句子中词语之间的关系)