我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。相关视频本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论汽车速度和制动距离数据(查看文末了解数据获取方式)。> re
转载
2023-07-05 21:55:40
1542阅读
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了我们的K-Means算法(Wikipedia链接)K-Means要解决的
# 使用 R 语言实现 Bootstrap 检验的详细教程
## 引言
Bootstrap 检验是一种非参数统计方法,可用于评估估计值的稳定性和置信区间。它通过随机抽样来构建采样分布,是一种非常灵活且有效的统计推断工具。本教程旨在帮助刚入行的小白掌握如何在 R 语言中实现 Bootstrap 检验,通过一步一步的指导和代码示例,帮助您快速理解这项技术。
## 流程概述
为了实现 Boots
原创
2024-09-18 06:44:20
481阅读
(视频在Task4中已看完,主要写一下主要的几个问题)1.什么是Bootstrap?称为“自助法”,是指用原样本自身的数据抽样得出新的样本及统计量,是一类Monte Carlo方法,实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。由于从总体中重复多次抽取样本常常是不方便甚至无法实施的,因此Bootstrap只从总体中抽取一次样本,再在这个样本中进行多次有放回地抽样,得到多个“样本的样
转载
2024-09-13 20:29:27
60阅读
这几天总遇到sprintf,下面自己来小小地总结下~srpintf()函数的功能非常强大:效率比一些字符串操作函数要高;而且更具灵活性;可以将想要的结果输出到指定的字符串中,也可作为缓冲区,而printf只能输出到命令行上~头文件:stdio.h函数功能:格式化字符串,将格式化的数据写入字符串中。函数原型:int sprintf(char *buffer, const char *format,
转载
2024-01-19 16:11:49
5阅读
假设检验总体均值的检验一个总体均值的检验大样本的检验z.test(table$PM2.5.,mu=81,sigma.x = sd(table$PM2.5.),alternative = "less",conf.level = 0.95)小样本的检验t.test(table$厚度,mu=5)检验效应量library(lsr)
cohensD(table$厚度,mu=5)两个总体均值之差的检验独立大样
转载
2023-09-05 18:49:02
141阅读
关于随机森林的简介和应用理论,请阅读之前分享的文章:关于随机森林进行分类的入门实战,请阅读之前分享的大家可以学习此文,实现分组挖掘两组或多组的特异Features,也可以展示特征的贡献度,获得分类评估的准确度,以及使用新数据进行预测,无监督的随机森林等基础技能。今天我们讲使用randomForest实现回归分析的实战代码。回归的应用主要包括时间序列预测模式,如预测股、尸体死亡时间等。本节不需要先难
转载
2023-06-21 18:59:19
319阅读
0. 为什么要用QR分解
的问题可以分成3类:
情况1:A是方阵,m=n情况2:A是over-determined的,m>n情况3:A是under-determined的,m<n在[数值计算] 条件数的例子2里,遇到的情况1(A是方阵),通过构造拉格朗日插值来使得对A求逆足够稳定。对于一般的情况下,解决思路是使用LU(LUP)分解来解决稳定性问题,在前一篇文中已经简
转载
2023-10-11 10:38:05
164阅读
通过综合案例,使学生掌握基本统计分析的各种指标的,掌握统计分析结果的可视化方法。1.调查某大学学生每周学习时间与得分的平均等级之间的关系,现抽查10个学生的资料如student.data文件所示。其中等级10表示最好,1表示最差,试用秩相关检验(Spearman检验和Kendall检验)分析学习时间和学习等级有无关系。(相关性检验)读取并查看文件提出假设:H0:学习时间和学习等级无关系H1:学习时
转载
2023-06-20 17:33:30
217阅读
一、随机模型的介绍在随机森林方法中,创建了大量的决策树。每个观察结果都被送入每个决策树。 每个观察结果最常用作最终输出。对所有决策树进行新的观察,并对每个分类模型进行多数投票。随机森林首先是一种并联的思想,同时创建多个树模型,它们之间是不会有任何影响的,使用相同参数,只是输入不同。为了满足多样性的要求,需要对数据集进行随机采样,其中包括样本随机采样与特征随机采样,目的是让每一棵树都有个性。将所有的
转载
2023-06-21 18:57:49
405阅读
一、求解支持向量机。上篇笔记讲到,如何求解拉格朗日乘子向量。基本的想法就是,每次选出两个乘子,对其他的乘子赋值,此时,只剩两个乘子。问题变成了一个两元一次方程和求二元函数最小值的问题。如果乘子可以更新(既违反了KKT条件),则把其中一个乘子用令一个乘子代替,带入到二元函数中,再求函数取最小值时(通过公式可以看出这是一个开口向上的抛物线),未知数的值。重复上面的过程直到所有的乘子都稳定下来,不再发生
转载
2024-04-16 10:36:56
47阅读
摘要本文提供了一套用于分析各种有限混合模型的方法。既包括传统的方法,如单变量和多变量正态混合的EM算法,也包括反映有限混合模型的一些最新研究的方法。许多算法都是EM算法或基于类似EM的思想,因此本文包括有限混合模型的EM算法的概述。1.有限混合模型介绍人群中的个体往往可以被划分为群。然而,即使我们观察到这些个体的特征,我们也可能没有真正观察到这些成员的群体。这项任务在文献中有时被称为 "无监督聚类
转载
2023-11-21 15:21:05
202阅读
完全信息静态博弈纯策略均衡文章目录完全信息静态博弈纯策略均衡@[toc]1 纯策略完全信息静态博弈2 R代码操作3 一般情形半夜写推文眼酸,早上绕学校走两圈,回忆代码有bug,故重新推文1 纯策略完全信息静态博弈纯策略完全信息静态博弈可以通过严格占优策略反复寻找法、严格劣策略反复剔除法、划线法和箭头法寻找Nash equilibrium。由于划线法使用比较简洁,下文通过R语言模拟并寻找纯策略完全信
转载
2024-06-24 11:04:30
46阅读
# R语言实现SOFM(自组织特征映射)
自组织特征映射(Self-Organizing Feature Map, SOFM)是一种无监督学习的神经网络算法,常用于数据降维和聚类。接下来,我将逐步指导你如何在R语言中实现SOFM。我们将首先了解整个流程,并通过代码来实现每一步。
## SOFM实现流程
以下是实现SOFM的主要步骤:
| 步骤 | 描述
一、从URL读取并返回html树1.1 Rcurl包 使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表单。比R socktet连接要提供更高水平的交互,并且支持 FTP/FTPS/TFTP,SSL/HTTPS,telnet 和cookies等。本文用到的函数是basicTextGat
使用R语言实现plsRcox的步骤如下:
流程图:
```mermaid
graph TD
A[准备数据] --> B[数据预处理]
B --> C[建立模型]
C --> D[模型评估]
```
步骤说明:
1. 准备数据:首先需要准备好用于建立模型的数据。可以使用R中的数据集或者自己导入数据。
2. 数据预处理:对数据进行预处理,包括数据清洗、缺失值处理、变量转换等。常用的预处理函数
原创
2023-11-24 08:00:36
407阅读
# R语言实现LDA(线性判别分析)
## 引言
线性判别分析(Linear Discriminant Analysis, LDA)是一种常用的统计分类方法,主要用于数据的降维和分类。LDA能够在特征空间中找到最优的线性组合,使得类别之间的差异最大化,而类内差异最小化。本文将介绍如何在R语言中实现LDA,并通过代码示例和图形演示其基本流程。
## 什么是LDA?
LDA实际上是一种监督学习
# 使用R语言实现Lasso回归算法
## 背景介绍
Lasso(Least Absolute Shrinkage and Selection Operator)是一种用于回归分析的统计估计方法,它通过对模型参数增加L1正则项来实现特征选择和模型压缩。Lasso回归可以用于解决高维数据集的问题,通过减少不重要或冗余的特征,提高模型的泛化能力。
在本文中,我们将使用R语言来实现Lasso回归算
原创
2024-01-22 07:21:52
104阅读
# R语言实现Bagging
## 什么是Bagging?
Bagging(全名Bootstrap Aggregating)是集成学习的一种方法,通过创建多个训练数据的子集来构建多个模型,然后将它们的预测结果结合起来,从而提高模型的准确性和稳定性。Bagging的基本思想是利用不同的数据子集来训练多个模型,从而减少方差并增强模型的预测能力。
## Bagging的工作原理
Bagging的
# R语言实现自回归分数积分滑动平均模型(ARFIMA)
自回归分数积分滑动平均(ARFIMA)模型是一种广泛应用于时间序列分析的工具。与传统的自回归滑动平均(ARMA)模型不同,ARFIMA模型不仅能够处理自相关,还可以处理数据的长期依赖性。本文将介绍如何在R语言中实现ARFIMA模型,并展示代码示例和可视化分析。
## ARFIMA模型简介
ARFIMA模型是ARMA模型的扩展形式,包含