一分钟就能让你了解NLPNLP是神经语言程序学的英文缩写。后来,也意译为:身心语言程序学,在后面,我们就采用“身心语言程序学”这个译法。NLP的意思是:用语言去影响身心状态的具体方法。 N=身心 N(Neuro)指神经系统,意译为身心。指我们的身心素质、结构与状态。 身心包括二方面: 1、身:身体素质与状态。 2、心:心理素质、结构与状态。如性格、心态、习惯、能力、观念等。 你说你自信,这是一个
转载 2023-07-31 21:15:42
61阅读
NLP课程第12讲介绍了语法学 (linguistics) 基础知识、基于字符粒度的模型、模型 (Subword-models)、混合字符与粒度的模型、fastText模型等。
原创 2022-05-16 15:50:20
6027阅读
赖可量子位 报道 | 骗过AI如此简单。换了一个同义,自然语言处理模型就读不对句子的意思了。麻省理工和大学的研究生们开发了一个算法,让AI在文本分类和推理问题上的正确率从80%下降到10%。测试原理这个模型的名字叫Textfooler,通过生经过微调的句子,来对自然语言文本分类和推理进行。比如在著名的分类任务影评判断中,AI的任务是去判断一句影评是肯定性的还是否定性的。像这句:The c
转载 2024-05-13 14:28:00
10阅读
1,corpus 语料库a computer-readable collection of text or speech 2,utterance发音比如下面一句话:I do uh main-uh 是 fillers,填充(Words like uh and um are called fillers or filled pauses )。The broken-off word
转载 2023-12-27 09:43:57
55阅读
自然语言处理3——语言学资源 文章目录自然语言处理3——语言学资源词汇资源库语料库 NLP需要大规模语言数据用于模型参数训练及评测;且NLP中知识库包括:词汇语义库、词法、句法规则库、常识库等。 词汇资源库人读词典:格式不规范,数据完整性和一致性不好,非结构化机读词典:按信息类型分类:语法词典、语义词典、双语词典等按领域分类:通用词典、专业词典、专名词典(为解决某一类任务所有的名字、地名等构成的
感谢:://jiqizhixin/articles/2018-07-25-5  一、    NLP 概述 1.文本挖掘任务类型的划分文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。同步的序列到序列的例子包括中文分词,命名实体识别和词性标注。异步的序列到序
转载 2023-05-27 10:43:13
245阅读
doc2vec基本原理A distributed memory model训练句向量的方法和向量的方法非常类似。训练向量的核心思想就是说可以根据每个单词的上下文预测,也就是说上下文的单词对是有影响的。那么同理,可以用同样的方法训练doc2vec。例如对于一个句子i want to drink water,如果要去预测句子中的单词want,那么不仅可以根据其他单词生成feature, 也可以根据
NLP- 关键提取 - 综述一、关键提取有以下几种方式二、TF-IDF三、TextRank四、LDA五、word2vec 一、关键提取有以下几种方式二、TF-IDFTF-IDF算法,主要是通过统计方法,评估对文档的重要性。一个基本思想是,一个在文档中出现的次数越多,显然这个会相对更具代表性,但是如果这个在很多的文档中都有出现,那么他出现次数再多也不具备文档区分能力。所以他的另一个基
转载 2023-07-08 11:37:39
152阅读
nlp的数据预处理中,我们通常需要根据原始数据集做出如题目所示的三种结构。但是新手(我自己)常常会感到混乱,因此特意整理一下1.词库词库是最先需要处理出的数据形式,即将原数据集按空格分词或者使用分词的包如jieba等,将原始文章分割成一个个词语所表示的list,一般是一维或者二维的,二维词库往往是以行为第一维。 比如下面我们对ptb数据集进行处理产生对应的词库with open('ptb/ptb
转载 2023-07-31 17:06:06
73阅读
前言文本匹配一直是自然语言处理(NLP)领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度计算、自然语言推理、问答系统、信息检索等,都可以看作针对不同数据和场景的文本匹配应用。比如信息检索可以归结为搜索和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题。而文本匹配整体流程基本上都可以
1.什么是向量         在自然语言处理中,面临的首要问题是如何让模型认识我们的文本信息,比如向模型中输入‘我爱北京天安门’,那模型是如何认识文本的?,是自然语言处理中基本单位,将数据输入到模型中,尽可能的让模型明白其中的含义,那就面临一个问题:如何表示一个?   &
文章目录NO.1、文本关键提取算法基于统计特征的关键提取算法1、基于`权重`的特征量化2、基于的`文档位置`的特征量化3、基于的`关联信息`的特征量化NO.2、文本关键提取算法基于图模型的关键抽取算法1、综合特征法2、系统科学法3、随机游走法NO.3、文本关键提取算法基于主题模型的关键抽取NO.4、文本关键提取算法阶段说明 有监督的文本关键提取算法需要高昂的人工成本,因此
# NLP 向量原理及应用 本文将介绍自然语言处理(NLP)中的向量原理及其应用。向量是NLP中一种重要的表示文本的方式,能够将离散的文字转化为连续的向量表示,从而在计算机中进行有效的处理。我们将通过代码示例和图形表示来说明向量的原理和应用。 ## 1. 向量原理 向量是一种将词语转换为向量形式的技术。传统的NLP方法中,通常使用独热编码的方式表示词语,即每个词语都表示为一个向量
原创 2023-10-19 17:02:29
112阅读
1、词性标注 (1)词性标注简介 词性标注是在给定句子中判定每个的语法范畴,确定其词性并加以标注。但在中文中,一个的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。 目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以
学习目标目标 了解嵌入的优势 掌握嵌入的训练gensim库的使用
原创 2022-05-09 15:47:12
220阅读
# 自然语言处理(NLP云分析 自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成自然语言。通过NLP技术,我们可以实现文本分类、实体识别、情感分析等应用。在本文中,我们将介绍如何利用NLP技术进行云分析,并展示云图片的生成过程。 ## NLP云分析流程 下面是NLP云分析的流程图:
原创 2024-05-11 06:09:25
32阅读
# 文本替换 NLP 教程 文本替换是一项重要的自然语言处理(NLP)任务,广泛应用于数据清理、文本生成和机器翻译等领域。本篇文章旨在教会入门开发者如何实现简易的文本替换,涵盖了从流程到代码的整个过程。 ## 1. 流程概述 在开始实现文本替换之前,我们需要明确整个任务的步骤,以下是一个简化后的步骤表格: | 步骤 | 描述 |
原创 2024-08-18 03:26:14
63阅读
作者:刘聪NLP前两天刷arXiv时,刷到了一篇蛮有意思的论文,今天跟大家分享一下。论文来自EMNLP2021,论文全称为AEDA:AnEasier Data Augmentation Technique for Text Classification,即一种更简单的文本分类数据增强技术。论文地址:https://arxiv.org/pdf/2108.13230.pdf代码地址:https://g
第2篇:三分钟热情学NLP-关键提取TF-IDF一篇文章或1个文档中,哪些对文章更重要?哪些可以作为关键?自动提取关键可以快速地从海量的信息中提取和获取信息,下面简述下关键提取技术。1、关键提取的机器学习方法有监督的机器学习方法:构建1个丰富的词表,判断每个文档与词表中每个次的匹配程度,这种方法是准确高;缺点是维护词表和标注的成本高; 无监督的机器学习方法:2个常见算法是TF-IDF
转载 2023-09-02 06:17:08
181阅读
显式数据增强给定一个输入文本,在尽可能不改变原是文本语义的情况下,微调或修改部分字符或可以实现快速的增强,主要包括如下几种类型:同义替换 (SR) :随机挑选n个 非停用词 ,分别根据其 同义词表 随机替换一个同义;对于分类、回归等任务,可以使用反义词表替换所有原始词性的,实现负采样,也是一种数据增强方法。但使用同义或反义词表进行替换时,很难保证文本的语义是否符合预期。随机插入 (RI)
  • 1
  • 2
  • 3
  • 4
  • 5