思维导图:https://www.processon.com/diagraming/5c6e214ee4b056ae2a10eb9c本文争取以最短的文字,最简单的语言来描述NLP流程与w2v,详细原理会提供相应的链接.写到一半发现还是有很多地方省略过去= =写的不够详细1.NLP流程详解1.1数据清洗不感兴趣的、视为噪音的内容清洗删除,包括对于原始文本提取标题、摘要、正文等信息,对于爬取的网页内容
转载
2024-03-14 12:26:23
52阅读
1. 简介NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成熟了,大部分的准确率都可以达到95%以上,说复杂是因为剩下的5%很难有突破,主要因为三点:粒度,不同应用对粒度的要求不一样,比如“苹果手机”可以是一个词也可以是两个词歧义,比如“下雨天留人天留我不留”未登录词
转载
2022-07-07 16:52:00
250阅读
之前提到,seq2seq的一大缺点是单一的语义向量难以表达长序列的完整语义,而改善这一问题的一个有效方法就是结合注意力机制,在不同的时刻针对输出计算包含不同语义的语义向量: 所谓注意力机制,本质上就是在分析过程中引入权重,在本文,我主要介绍两种注意力计算框架:原始的计算框架和multi-head attention,从原始的框架中又进一步划分为:soft attention(key=value)、
转载
2024-01-25 17:10:44
39阅读
NLP之文本聚类算法综述文本聚类算法综述常见算法通用场景评估指标实现流程代码实现 文本聚类算法综述常见算法常见的文本聚类算法有以下几种:K-Means:是最常见的聚类算法,通过迭代不断更新聚类中心来实现文本聚类。Hierarchical Clustering:分层聚类算法,通过不断合并或分裂聚类簇来实现文本聚类。DBSCAN:基于密度的聚类算法,通过找到密度相连的点形成聚类簇。Spectral
转载
2023-11-10 12:14:57
28阅读
6行代码实现kNN算法监督学习-分类算法-kNNkNN:K最近邻算法,k-Nearest Neighbork个最近的邻居属于:监督学习,分类算法kNN算法思想衡量未知分类点周围邻居的权重然后把它归类到权重更大的那一类较适用于类域交叉重叠的样本kNN算法描述输入k值对未知类别数据集中的每一个点依此执行以下操作
计算当前点与已知类别数据集中的点之间的距离按照距离以递增次序排序选取与当前点距离最小
转载
2023-11-19 10:35:28
102阅读
目录一、什么是LCS子序列最长公共子序列二、LCS的应用场景三、LCS的查找方法1. 动态规划法计算LCS的长度和两字符串的相似度2. 回溯算法查找LCS四、代码实现 一、什么是LCS子序列子序列:一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列最长公共子序列最长公共子序列(Longest Common Subsequence):两个序列X和Y的公共子序列中,长度最长的那个,定义为
转载
2023-08-02 09:11:28
186阅读
# NLP搜索纠错算法及代码
自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,其应用涵盖了文本分析、语音识别、机器翻译等多个领域。在搜索引擎中,纠错算法是提升搜索结果准确性的关键之一。本文将介绍NLP搜索纠错算法的基本原理,并给出一个简单的代码示例。
## 纠错算法原理
NLP搜索纠错算法的基本原理是通过分析用户输入的查询词,
原创
2024-04-17 04:40:44
159阅读
人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(Machine Learning)和深度学习算法(Deep Learning)总的来说,在sklearn中机器学习算法大概的分类如下:1. 纯算法类(1).回归算法(2).分类算法(3).聚类算法(4)降维算法(5)概率图模型算法(6)文本挖掘算法(7)优化算法(8)深度学习算法2.建模方面(1).模型优化(2).数据预处理二、详细算法1
转载
2019-06-20 14:26:00
180阅读
一,TF-IDF介绍1,TF-IDF简介 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。2,TF-IDF的计算公式在NLP中,TF-IDF的计算公式如下:tfidf = tf*idf.其中,tf是词频(
转载
2023-12-19 10:08:31
17阅读
1.分词针对语料库中,所存在的单词的概率进行不同方法的概率计算,来选择分词概率最大的一种分词方法。 计算公式(Unigram-algorithm)为:P(‘你好中国’) = P(‘你’)*P(‘好’)*P(‘中’)*P(‘国’) P(‘你好中国’) =P(‘你好’)*P(‘中’)*P(‘国’) P(‘你好中国’) = P(‘你好’)*P(‘中国’) …但上述计算公式,可能会导致概率过小而溢出,所以
转载
2023-10-10 07:10:18
220阅读
自然语言处理一直是人工智能领域的重要话题,更是18年的热度话题,为了在海量文本中及时准确地获得有效信息,文本分类技术获得广泛,也给大家带来了更多应用和想象的空间。本文根据AI科技大本营、学院联合达观数据分享的内容《NLP概述及文本自动分类算法详解》整理而成。 一、 NLP概述1.文本挖掘任务类型的划分 文本挖掘任务大致分为四个类型:类别到序列、序列到类
转载
2024-04-22 20:41:13
9阅读
一 序 本文属于贪心NLP训练营学习笔记系列。从隐变量到EM算法。二 数据表示传统的数据表示,如图片、文本等是人能直观理解。但是不一定是好的表示,可能有冗余的特征,有噪音等。是不是转换为低维的空间会更好?很多算法包括机器学习都是为了寻找一个更好的表示方法。三 隐变量模型隐变量生成的例子: Complete Case and Incomple
转载
2024-04-20 22:33:36
33阅读
感谢的分享,补充整理了一些内容,今后会更新内容和知识点一、人工智能学习算法分类1. 纯算法类2.建模方面二、详细算法1.分类算法2.回归算法3.聚类算法4.降维算法5.概率图模型算法6.文本挖掘算法7.正则化8.深度学习算法三、建模方面1.模型优化·2.数据预处理一、人工智能学习算法分类人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(Machine Learning)和深度学习算法(D
转载
2023-08-17 09:04:18
99阅读
一、文本处理流程文本清洗:html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息预处理:去除停用词、加载自定义词库(实体词库、垂直领域词库)、分词特征提取:关键词、实体词建模:文本分类、文本聚类、情感分析、标签提取优化:停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整效果评估:满足线上使用要求,准确率、速度上线部署:部署api接口二、NLP算法深度学习在自然语
转载
2023-10-23 23:28:21
108阅读
一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语
转载
2023-05-24 14:53:53
213阅读
一、KERAS实现当前,说到深度学习中的对抗,一般会有两个含义:一个是生成对抗网络(Generative Adversarial Networks,GAN),代表着一大类先进的生成模型;另一个则是跟对抗攻击、对抗样本相关的领域,它跟GAN相关,但又很不一样,它主要关心的是模型在小扰动下的稳健性。本博客里以前所涉及的对抗话题,都是前一种含义,而今天,我们来聊聊后一种含义中的“对抗训练”。本文包括如下
导读自然语言处理(NLP)作为语言信息处理技术的一个研究方向,一直是人工智能领域的核心课题之一。日常生活中,我们有时会遇见一些有歧义或者令人费解的语句例子,这些例子让人直觉计算机理解人类语言太难了。本文从自然语言理解的本质、关键,以及自然语言的特点和理解难点四方面,对“NLP到底难在哪里”给出了通俗易懂的介绍。本文总字数6214,阅读约21分钟作者简介刘知远,清华大学计算机系副教授,研究方向为自然
转载
2023-12-19 21:03:06
32阅读
BM25算法,通常用来做检索相关性评分。首先对一个查询Query进行分词得qi,对每个搜索结果文档d,计算qi与文档d的相关性得分。最后将所有的qi进行加权求和,从而得到查询Query与文档d的相关性得分。公式中,Q表示查询Query,qi表示查询被解析得到的分词qi,d表示搜索结果文档d,Wi表示分词qi的权重,R(qi,d)表示分词qi与文档d的相关性得分。定义一个词与文档相关性的权重方法有很
转载
2023-10-25 22:13:30
76阅读
作者 | songyingxin本项目记录了面试NLP算法工程师常会遇到的问题。1. 编程语言基础该文件夹下主要记录 python 和 c++ 的一些语言细节, 毕竟这两大语言是主流,基本是都要会的,目前还在查缺补漏中。C++面试题Python 面试题2. 数学基础该文件夹下主要记录一些数学相关的知识,包括高数,线性代数,概率论与信息论, 老宋亲身经历,会问到, 目前尚在查缺补漏中。概率论高等数学
转载
2023-08-14 14:22:49
85阅读
最近在做机器翻译相关的工作,发现subword算法在NLP各大任务中无处不在。既然要用到并且用好subword,这里就重点捋一遍关于subword的算法以及几个开源的实现。1.word、subword和character在神经机器翻译中,通常有一个固定的词表,并且模型的训练和预测都非常依赖这个词表。在神经网络的训练过程中,需要对词表中每个词做向量表,每个词对应不同的向量,即embedding的过程
转载
2023-11-13 06:42:51
171阅读