假设检验总体均值的检验一个总体均值的检验大样本的检验z.test(table$PM2.5.,mu=81,sigma.x = sd(table$PM2.5.),alternative = "less",conf.level = 0.95)小样本的检验t.test(table$厚度,mu=5)检验效应量library(lsr)
cohensD(table$厚度,mu=5)两个总体均值之差的检验独立大样
转载
2023-09-05 18:49:02
141阅读
一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。 KNN是通过测量
转载
2023-07-16 16:23:26
137阅读
假设检验及R实现7.1假设检验概述对总体参数的具体数值所作的陈述,称为假设;再利用样本信息判断假设足否成立,这整个过程称为假设检验。7.1.1理论依据假设检验之所以可行,其理沦背景是小概率理论。小概率事件在一次试验中儿乎是不可能发生的,但是它一以发生,我们就有理由拒绝原假设:反之,小概率事件没有发生,则认为原假设是合理的。这个小概率的标准由研究者事先确定,即以所谓的显著性水平α(0<α<
转载
精选
2016-04-08 10:04:21
7583阅读
作者:Rahul Agarwal 创造一个大的机器学习系统是一门艺术。在构建一个大的机器学习系统时,有很多事情需要考虑。但作为数据科学家,我们常常只担心项目的某些部分。但是我们是否考虑过一旦我们拥有了模型,我们将如何部署它们?我见过许多 ML 项目,其中许多项目注定要失败,因为它们从一开始就没有一个固定的生产计划。这篇文章是关于一个成功的 ML 项目的过程需求 —— 一个进入生产的项目。1. 在
# 使用R语言实现Bedtools功能的入门指引
在数据生物信息学领域,Bedtools是一个非常强大的工具,用于处理基因组数据。虽然Bedtools主要是用命令行方式操作,但我们也可以通过R语言来实现类似的功能。本篇文章将引导你如何在R中实现Bedtools的基本操作,适合刚入门的开发者学习。
## 流程概述
以下是我们将要实现的基本步骤:
| 步骤 | 描述
0. 为什么要用QR分解
的问题可以分成3类:
情况1:A是方阵,m=n情况2:A是over-determined的,m>n情况3:A是under-determined的,m<n在[数值计算] 条件数的例子2里,遇到的情况1(A是方阵),通过构造拉格朗日插值来使得对A求逆足够稳定。对于一般的情况下,解决思路是使用LU(LUP)分解来解决稳定性问题,在前一篇文中已经简
转载
2023-10-11 10:38:05
164阅读
关于随机森林的简介和应用理论,请阅读之前分享的文章:关于随机森林进行分类的入门实战,请阅读之前分享的大家可以学习此文,实现分组挖掘两组或多组的特异Features,也可以展示特征的贡献度,获得分类评估的准确度,以及使用新数据进行预测,无监督的随机森林等基础技能。今天我们讲使用randomForest实现回归分析的实战代码。回归的应用主要包括时间序列预测模式,如预测股、尸体死亡时间等。本节不需要先难
转载
2023-06-21 18:59:19
319阅读
一、随机模型的介绍在随机森林方法中,创建了大量的决策树。每个观察结果都被送入每个决策树。 每个观察结果最常用作最终输出。对所有决策树进行新的观察,并对每个分类模型进行多数投票。随机森林首先是一种并联的思想,同时创建多个树模型,它们之间是不会有任何影响的,使用相同参数,只是输入不同。为了满足多样性的要求,需要对数据集进行随机采样,其中包括样本随机采样与特征随机采样,目的是让每一棵树都有个性。将所有的
转载
2023-06-21 18:57:49
405阅读
通过综合案例,使学生掌握基本统计分析的各种指标的,掌握统计分析结果的可视化方法。1.调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如student.data文件所示。其中等级10表示最好,1表示最差,试用秩相关检验(Spearman检验和Kendall检验)分析学习时间和学习等级有无关系。(相关性检验)读取并查看文件提出假设:H0:学习时间和学习等级无关系H1:学习时
转载
2023-06-20 17:33:30
214阅读
概念 数据包络分析(Data envelopment analysis,DEA)是运筹学中用于测量决策部门生产效率的一种方法,它是基于相对效率发展的崭新的效率评估方法。 详细来说,通过使用数学规划模型,计算决策单元相对效率,从而评价各个决策单元。每个决策单元(Decision Making Units,DMU)都可以看作为相同的实体,各 DMU 有相同的输入、输出。综合分析输入、输出数据,DEA
转载
2023-08-24 15:07:34
175阅读
思想简介KNN(k-Nearest Neighbor)是一种懒惰机器学习算法(lazy learning)。所谓k最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。简而言之,它在拿到训练集数据时并不急着去建模,而是在拿到测试集数据后,再到训练集数据中去寻找该测试样本最近的“邻居”,即距离最近的K个训练样本,依照训练样本数据的所属类别,加权或不加权地得出测试数据的类别
转载
2023-08-17 07:42:15
803阅读
完全信息静态博弈纯策略均衡文章目录完全信息静态博弈纯策略均衡@[toc]1 纯策略完全信息静态博弈2 R代码操作3 一般情形半夜写推文眼酸,早上绕学校走两圈,回忆代码有bug,故重新推文1 纯策略完全信息静态博弈纯策略完全信息静态博弈可以通过严格占优策略反复寻找法、严格劣策略反复剔除法、划线法和箭头法寻找Nash equilibrium。由于划线法使用比较简洁,下文通过R语言模拟并寻找纯策略完全信
转载
2024-06-24 11:04:30
46阅读
摘要本文提供了一套用于分析各种有限混合模型的方法。既包括传统的方法,如单变量和多变量正态混合的EM算法,也包括反映有限混合模型的一些最新研究的方法。许多算法都是EM算法或基于类似EM的思想,因此本文包括有限混合模型的EM算法的概述。1.有限混合模型介绍人群中的个体往往可以被划分为群。然而,即使我们观察到这些个体的特征,我们也可能没有真正观察到这些成员的群体。这项任务在文献中有时被称为 "无监督聚类
转载
2023-11-21 15:21:05
202阅读
一、求解支持向量机。上篇笔记讲到,如何求解拉格朗日乘子向量。基本的想法就是,每次选出两个乘子,对其他的乘子赋值,此时,只剩两个乘子。问题变成了一个两元一次方程和求二元函数最小值的问题。如果乘子可以更新(既违反了KKT条件),则把其中一个乘子用令一个乘子代替,带入到二元函数中,再求函数取最小值时(通过公式可以看出这是一个开口向上的抛物线),未知数的值。重复上面的过程直到所有的乘子都稳定下来,不再发生
转载
2024-04-16 10:36:56
47阅读
R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔记,所以并不会讨论一些高级应用,或者与data.table包的性能比较。1. 数据集类型转换tbl_df()可用于将过长过大的数据集转换
转载
2023-09-27 19:17:17
188阅读
R语言实现Xbar-R控制图Xbar-R控制图在质量管理中主要用于对计量数据进行检测,以达到控制对象质量的目的。虽然用Excel可以轻松实现控制图的操作,不过作为R软件初学者,我试着用仅有的一点R语言知识进行了控制图的绘制操作。虽然画出来了但是代码实在是低效,以后再慢慢改进吧。> data ...
转载
2017-06-08 09:30:00
247阅读
2评论
3.1使用图形可以使用pdf等函数将图形直接保存在文件中。在运用attach和detach函数的使用中经常出现错误,比如命名重复的问题,所以,应该尽量避免使用这两个函数。plot是一般的画图函数,hist是直方图,boxplot是箱型图。这些函数会覆盖前面的图形,如何创建多个图形便于同时查看呢?方法有三:1、创建新图形之前先打开一个新的图形窗口,每一幅新图形会出现在最近的图形窗口中。 dev.n
转载
2023-10-09 00:00:41
106阅读
K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。即每个样本都可以用它最接近的k个邻居来代表。KNN算法适合分类,也适合回归。KNN算法广泛应用在推荐系统、语义搜索、异常检测。 KNN算法分类原理图:图中绿色的圆点是归属在红色三角还是蓝色方块一类?如果K=5(离绿色圆点最近的5个邻居,虚线圈内)
转载
2024-03-29 09:59:05
336阅读
dplyr包被称为是十大R语言必学包之一,下面简单介绍包内的常用函数,参考来自dplyr包文档:1.filter(df, condition1, condition2,..., .dots)过滤函数,df为目标数据框,下面我都用df指代目标数据框,就不再赘述,后面跟的都是过滤条件,最后面那个.dots是一个类似于传递柯里化函数的东西,可以单独讲一篇了。。这里就不展开了,后面的每一个函数都可以加入这
转载
2023-11-13 16:25:07
96阅读
约万字长文预警,如果你没时间,就不用看了,这就是一个梳理的文章,方便我后来找资料。因为工作的关系,近期需要梳理一些 Python 的知识(可能有小伙伴知道了,LI-6800 搞了个大动作,支持 Python 编程了),首先要认真系统的梳理的是关于时间和日期的处理,但本着一次也是做工作,两次也是做工作,反正都同样是知识,二者也是密切相关,所幸把 R 相关的知识也一并梳理了。时间日期的基础知识先把经常