6.1#6.1
load('C:/exercise/ch6/exercise6_1.RData')
exercise6_1
#(1)绘制Q-Q图,检测零件尺寸的绝对误差是否服从正态分布
par(mfrow=c(1,2),mai=c(0.7,0.7,0.2,0.1),cex=0.8)
qqnorm(exercise6_1$零件误差,xlab='期望正态值',ylab='观测值',datax=TRUE
chapter02 基于统计的方法1.概述统计方法对数据正常性数据作出假设。假设正常数据由统计模型产生,不遵守该模型的是异常数据。统计方法的有效性高度依赖于 给定的数据所做的统计模型假设是否成立。思想:学习一个拟合给定数据的 生成模型 ,识别该模型低概率区间的对象,将他们作为异常点。 根据如何指定和学习模型,基于统计的异常检测方法可以划分为 参数方法 和非参数方法。参数方法:假定正常数据
转载
2024-07-14 09:22:16
69阅读
#异常检测——基于统计学的方法 最近在学习异常检测,datawhale的资料很不错,保存一波主要内容包括:高斯分布箱线图HBOS 文章目录1、概述2、参数方法3、非参数方法4、基于角度的方法5、HBOS5、总结参考资料 1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是
转载
2023-08-22 20:20:59
35阅读
基于统计的nlp模型在自然语言处理领域中扮演着重要的角色。这些模型通过分析大量文本数据,从中学习语言规律,进而用于文本分类、情感分析、实体识别等任务。在本文中,我们将介绍一个简单的基于统计的nlp模型,并通过Python代码示例展示其实现过程。
## 统计的nlp模型
基于统计的nlp模型通常使用概率统计方法,通过计算词频、词组频率等来建模语言规律。其中,一种常见的模型是n-gram模型,它基
原创
2024-04-14 06:01:09
129阅读
作者于2023年8月新开专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。这些内容也是作者《文本挖掘和知识发现(Python版)》书籍的部分介绍,本书预计2024年上市,采用通俗易懂和图文并茂的形式藐视,会更加系统地介绍文本挖掘和知识发现,共计20章节内容,涵盖上百个案例。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人
基于规则的方法
这些方法成功关键取决于将陈述句转换到疑问句的规则设计得是否足够好,而转化规则通常需要设计者具有深层的语言知识。为了改进纯基于规则的系统,2010 年,Heilman 等人引入了一种冗余问题生成和排序的方法,该方法使用基于规则的方法从输入语句生成多个问题,然后使用监督学习的方法,利用术语抽取以及浅层语义分析对它们进行排序,仅仅保留排名靠前的问题,由此生成的问题相较于
转载
2023-11-13 15:45:11
115阅读
## 基于统计的分词方法
### 1. 整体流程
首先,让我们来看一下基于统计的分词方法的整体流程。下面的表格展示了实现该方法的步骤。
| 步骤 | 描述 |
| --- | --- |
| 1 | 读取待分词的文本 |
| 2 | 对文本进行预处理 |
| 3 | 构建词典 |
| 4 | 计算词频 |
| 5 | 利用词频进行分词 |
### 2. 详细步骤
现在,让我们逐步详细说明
原创
2023-08-05 09:39:30
77阅读
20世纪80年代更早提出的分词方法大部分是基于词表进行的,称为基于词表分词方法。
原创
2022-08-20 22:42:34
371阅读
文内容由学堂在线的课程助教 于延涛 整理,方便大家在数据科学学习过程中查找数据。本文内容较长,共分三部分,数据科学领域不同领域的学习者可以各取所需。 第一部分:80+国内外常用的数据集,适合中、高级的学习者;第二部分:国内外数据资源,适合初、中、高级学习者;第三部分:数据科学领域经典的参考书,适合初、中级学习者;第四部分:清华大学数据科学认证项目,适合所有数据科学爱好者。&nb
转载
2024-05-22 16:44:28
69阅读
前言最一开始,在学习《Python人工智能:原理、实践及应用》中涉及到了写词频统计,只是对词频进行了统计。但在我们在日常工作中,涉及词频统计,我们往往绕不开TF-IDF,因此对词频-逆文档频率进行了学习总结,以及日常中你经常会被问到的几个问题。为什么TF要进行标准化操作?为什么要取对数?为什么IDF分母中要进行+1(IDF如何进行平滑处理的)?为什么要词频 * 逆文档频率(TF-IDF要用乘法)?
转载
2024-01-08 16:17:58
99阅读
2020年伊始,我们总结、展望了微软亚洲研究院在多个 AI 领域的突破与趋势,比如,更亲民的机器学习和更精巧的 AI 系统;数据洞察的获得变得更智能,AI 推进三维构建的发展;以及突破固化的计算机视觉和更具商用价值的 OCR 引擎。今天,我们将探索自然语言处理(Natural Language Processing,NLP)范式的新发展,以及微软亚洲研究院在语音识别与合成领域的创新成果。NLP 在
转载
2024-01-31 21:22:56
85阅读
Introduction and word vectors预习部分上完课回过头来需要问自己哪些问题? NLP中使用的核心方法有哪些,阐述对他们的理解。 语言是如何产生的,产生和理解过程中有哪些困难。 使用PyTorch搭建框架解决实际问题。P11的换算是什么意思?如何在电脑当中存储有用的含义? 一般的解决办法是使用WordNet,用来存储同义词集和相关词集。 这种方法的问题如下: 无法识别细微的差
转载
2024-07-07 06:34:13
35阅读
使用PaddleNLP语义预训练模型ERNIE完成快递单信息抽取
注意
本项目代码需要使用GPU环境来运行:
命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中的一个基础问题。在NER任务提供了两种解决方案,一类LSTM/GRU + CRF,RNN类的模型来抽取底层文本的
转载
2024-01-16 22:22:18
38阅读
# 基于NLP的文本相似度检测方法
在当今信息爆炸的时代,如何有效地评估文本的相似度是一个重要的课题。基于自然语言处理(NLP)的文本相似度检测方法可以帮助我们解决这一问题。本文将详细介绍如何实现这一方法,并逐步指导你完成整个过程。
## 流程概览
以下是实现基于NLP的文本相似度检测的基本流程:
| 步骤 | 描述
在自然语言处理(Natural Language Processing, NLP)中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中,如何度量句子或者短语之间的相似度尤为重要。为方便对知识的梳理,写下这篇博客对部分传统方法、词向量、深度学习方法进行总结,遗漏之处还请大家补充。 度量文
转载
2024-05-22 17:04:37
164阅读
文本匹配任务是nlp中非常常见的任务,最常用的场景包括文本搜索、智能客服、推荐等。简单的文本匹配算法有字面匹配,包括词频,ngram等,基本上通过tf-idf,ngram等算法统计词频,得到句子的数值向量,然后进行距离计算,得到文本的距离数值,距离越小则代表文本之间的相似度越高。但是通过词频统计得到的句子向量有两个弊端:其中之一是由于词的类别太多,得到的向量为稀疏向量,维度太高;其二,词频的匹配基
转载
2023-11-30 06:09:49
50阅读
前言,上一篇我们学习了一些基于醉打匹配规则的分词方法,这一篇我们介绍基是不是说的是 “正常话” 呢?是不是能被人理解的话呢?假如存在一个评分机制,score(美国, 特朗普)那么一定是大于score(英国, 特朗普)的,我们需要建立这么个评分机制。二:什
原创
2022-12-14 16:26:03
422阅读
## 如何统计转NLP经验:一个新手开发者的指南
作为一名新入行的小白,进入自然语言处理(NLP)领域可能会让你感到有些迷茫。统计转NLP经验的过程虽然复杂,但只要你系统地理解每一步,最终你会掌握如何将统计学的方法应用于NLP任务。本文将详细阐述这个过程,包括必要的步骤,代码示例和注释,以及如何用流程图和状态图来帮助可视化整个过程。
### 流程步骤概述
以下是统计转NLP经验的关键流程步骤
原创
2024-09-16 05:11:41
72阅读
1、情感分析的基本方法 对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。 在情感分析领域,文本可以划分为积极和消极两类,或者积极、消极和中性的多类。分析方法主要分为:
转载
2023-07-31 22:45:53
65阅读
# 基于飞桨NLP的虚假新闻检测方法
虚假新闻的传播对社会造成了极大的影响,给个人、企业和政府带来了很多问题。虚假新闻具有迅速传播、影响力巨大的特点,容易误导公众和引发社会恐慌。因此,我们需要一种可靠的方法来准确地检测虚假新闻。本文将介绍一种基于飞桨NLP的虚假新闻检测方法,并提供相应的代码示例。
## 虚假新闻检测方法简介
虚假新闻检测是一项复杂的任务,需要综合运用自然语言处理、机器学习等
原创
2024-01-19 03:55:44
287阅读