朱晨光-机器阅读理解:算法与实践读书笔记《第2章 自然语言处理基础》文本分词文本分词基本概要分词方法字节对编码BPEBPE的基本原理BPE的优缺点BPE的应用词向量独热编码分布式编码word2vecskip-gram目标函数优化方法 本文章主要以文本分词为入口,介绍词向量、命名实体与词性标注、语言模型等三大块内容。 首先,我们看下文本分词 文本分词文本分词基本概要文本分词是自然语言处理中的一
本章小白将继续介绍人工智能之中自然语言处理的章节部分。连续词袋连续词袋(CBOW)的工作方式与跳过克非常相似,但是主要区别在于我们尝试从周围词的矢量和预测中心词,有点像跳过克的倒数。共现矩阵(基于计数的方法)跳过语法模型一次捕获一个单词的同时出现。例如,我们一次遍历我们的语料库,看到“深度”和“学习”同时发生,因此我们对这些向量进行了更新并继续进行,然后看到它又再次发生,因此我们进行了另一次更新。
转载
2024-04-14 15:58:41
40阅读
自然语言处理自然语言处理(Natural Language Processing,NLP)研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能。著名的图灵测试就是根据机器是否能像人类一样理解语言来判断它是否具备人工智能。自然语言的复杂程度vs编程语言:词汇量、结构化、歧义性、容错性、易变性、简略性自然语言处理系统的输入源一共有3个,即语音、图像与文本
转载
2024-03-26 06:45:46
75阅读
自然语言处理(NLP)算法是一种将自然语言文本转化为计算机可处理的结构和信息的技术。以下是一些常见的NLP算法:分词算法:用于将文本分成单独的单词或短语。命名实体识别算法:用于从文本中识别和分类人名、地名和组织名称等命名实体。词性标注算法:用于为每个单词分配其语法类别,如名词、动词和形容词等。情感分析算法:用于确定文本中表达的情感,如正面、负面或中立。语义分析算法:用于确定文本的含义和上下文关系,
转载
2024-08-07 21:24:22
40阅读
目录1.算法介绍1.1 解决问题1.2 具体过程1.3 适用范围1.4 优缺点分析2.代码实现2.1 文件目录2.2 词典2.3 代码(python版)2.4 运行结果1.算法介绍1.1 解决问题 对于不包含明显的词之间的分隔符的语言(以中文为代表)进行分词操作。1.2 具体过程
转载
2024-02-19 20:14:22
55阅读
# Java自然语言处理之自然语言生成
## 概述
在自然语言处理(Natural Language Processing,NLP)领域中,自然语言生成(Natural Language Generation,NLG)是一项重要的任务。它涉及将结构化数据或其他非自然语言形式的信息转化为自然语言文本,以达到人类可理解和可交流的目的。
本文将介绍在Java中实现自然语言生成的流程,并提供相关的代
原创
2023-10-02 06:51:14
212阅读
中文分词算法一般分为三类:1.基于词表的分词算法正向最大匹配算法FMM逆向最大匹配算法BMM双向最大匹配算法BM2.基于统计模型的分词算法:基于N-gram语言模型的分词算法3.基于序列标注的分词算法基于HMM基于CRF基于深度学习的端到端的分词算法 下面介绍三类基于词表的分词算法一、正向最大匹配算法概念:对于一般文本,从左到右,以贪心的方式切分出当前位置上长度最
转载
2024-03-16 14:07:05
73阅读
Part 1、什么是自然语言处理 1、简介 这是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然语言,以
转载
2024-04-25 19:08:10
78阅读
nlp界神级人物 哥伦比亚大学 约翰霍普金斯大学 nlp知识结构 1.概述 自然语言处理,利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。 2.形式语言与自动机 语言:按照一定规律构成的句子或者字符串的有限或者无限集合 描述语言的三种途径: 穷举法 文法(产生式系统)描述 自动机 自然语言不是
转载
2023-11-28 07:00:26
51阅读
自然语言处理学习笔记1,Transformer2,注意力机制3,卷积网络为什么要用多个卷积核进行图像处理?4,最小二乘法 的一点见解5,卷积网络发展激活函数卷积神经网络:空洞卷积RNNLSTM(长的_短期记忆网络)考点总结: 1,TransformerTransformer 经典模型:简单理解 编码器(Encoding)+解码器(Decoding) 编码器:提取特征 解码器:根据得到的特征尽可能
转载
2024-05-11 20:22:43
40阅读
1. 大模型概述目前的NLP任务大都是基于transfomer的预训练语言模型(PLM,pretrained langue models)构造的,预训练大模型可以从无标注的数据中进行学习,随后根据具体的任务进行fine-tuning,得到最终的任务模型。 所谓语言模型,指的是如下的生成模型:1.1 模型分类首先对大模型基础的transfomer要了解,这里放一张结构图: 预训练模型根据是否保留tr
转载
2024-03-28 21:49:50
45阅读
英文资料: http://github.com/lovesoft5/ml一、自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。&n
转载
2023-07-03 17:02:38
16阅读
1 正向最大匹配法1.1 正向最大匹配(Maximum Match Method, MM法)的基本思想: 假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,直到
转载
2024-02-22 11:09:31
54阅读
本文简要介绍了常用分词算法以及python实现,包括:基于规则的分词算法、基于语言模型的分词算法和维特比分词算法。
原创
2022-09-23 17:06:47
378阅读
1.先解释何为CFG及PCFG:一个栗子:2.CKY算法(或称CYK算法)“在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文法(CFG,Context Free Grammar)进行语法分析(parsing)的算法。该算法最早由John Cocke, Daniel Younger and Tadao Kasami分别独立提出,其中John
转载
2024-05-10 16:00:10
86阅读
第 1 章-自然语言处理基础概念什么是自然语言处理自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能以及语言学 的交叉学科。自然语言是人工智能的一个领域。自然语言处理的终极目标是理解人类语言或人工智能 。自然语言概述人类独有的自然语言非常独特,仔细思考一下,我们日常中每天都在用的自然语言(尤其是中文)具有高度灵活 的特点。⭐️ 自然语言与
转载
2024-02-20 20:33:16
22阅读
目录 文章目录目录〇、推荐一、人工智能学习算法分类1. 纯算法类2.建模方面二、详细算法1.分类算法2.回归算法3.聚类算法4.降维算法5.概率图模型算法6.文本挖掘算法7.优化算法8.深度学习算法三、建模方面1.模型优化·2.数据预处理 一、人工智能学习算法分类人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(Machine Learning)和深度学习算法(Deep Learning
转载
2024-03-26 04:33:52
30阅读
TextRank算法TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是: Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.先从PageRank讲起 首先介绍原理与概念TextRank 算...
转载
2021-08-31 13:49:21
2403阅读
1.BERT概述BERT 是 Transformers 双向编码器表示的缩写,是一种用于自然语言处理的机器学习 (ML) 模型。它由 Google AI Language 的研究人员于 2018 年开发,是 11 种以上最常见语言任务解决方案,例如情感分析和命名实体识别。从历史上看,计算机很难“理解”语言。当然,计算机可以收集、存储和读取文本输入,但它们缺乏基本的语言上下文。因此,出现
转载
2024-08-12 22:39:16
63阅读
成绩:30%(平时作业)+ 70%(大作业)
第一课1.1自然语言处理概述NLP组成:自然语言识别NLP=自然语言理解NLU+自然语言生成NLG自然语言NLP的发展阶段:萌芽期:香农、图灵符号主义(基于规则)
时间:1956~1980
原理:基于逻辑推断、每步都需要具体的表达
方法:规则系统、专家系统
缺点:规则不完善,没有科学基础,规则非黑即白,缺失了语言的灵
转载
2024-08-09 17:00:44
122阅读