拓端小助手的博客_原创(42)

R语言Fisher检验探究地区间公寓价格的关系

本文使用波兰公寓价格数据说明Fisher检验。

R语言

编程开发

原创 2021-05-12 13:42:19 177 阅读

R语言ROC曲线评价分类器的好坏

本文将使用一个小数据说明ROC曲线，其中n = 10个观测值，两个连续变量x_1和x_2，以及二元变量y∈{0,1}。

R语言

编程开发

原创 2021-05-12 13:42:16 334 阅读

使用R语言做极大似然估计实例

在所有双射函数的意义上，最大似然估计是不变的如果是的最大似然估计然后。让，然后等于和中的似然函数是。由于是的最大似然估计，

R语言

编程开发

原创 2021-05-12 13:42:14 1891 阅读

R语言分位数回归预测筛选有上升潜力的股票

现在，分位数回归已被确立为重要的计量经济学工具。与均值回归（OLS）不同，目标不是给定x的均值，而是给定x的一些分位数。您可以使用它来查找具有良好上升潜力的股票。

R语言

编程开发

原创 2021-05-12 13:42:12 294 阅读

R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

自组织映射（SOM）是一种工具，通过生成二维表示来可视化高维数据中的模式，在高维结构中显示有意义的模式。通过以下方式使用给定的数据（或数据样本）对SOM进行“训练”：

R语言

编程开发

原创 2021-05-12 13:42:05 1475 阅读

R语言基于线性回归的资本资产定价模型（CAPM）

原文链接：http://tecdat.cn/?p=20031简介资本资产定价模型（CAPM）是用于确定是否在一个特定资产的投资是值得的。本质上，问题是：“该资产的回报是否值得投资？” 在本教程中，我们将应用CAPM模型，使用多元回归模型查看特定股票是否值得投资。CAPM：公式经济学就是权衡取舍。根据CAPM公式，基本上将股票或任何类型的资产类别与相对无风险的资产（通常是政府债券）进行比较，因为这些资产的违约概率非常低。CAPM公式如下E（Ri）是期望收益率。 Rf是无风险...

R语言

编程开发

原创 2021-05-12 13:40:42 699 阅读

R语言用多元ARMA,GARCH ,EWMA, ETS,随机波动率SV模型对金融时间序列数据建模

原文链接：http://tecdat.cn/?p=20015本文将说明单变量和多变量金融时间序列的不同模型，特别是条件均值和条件协方差矩阵、波动率的模型。均值模型本节探讨条件均值模型。iid模型我们从简单的iid模型开始。iid模型假定对数收益率xt为N维高斯时间序列：均值和协方差矩阵的样本估计量分别是样本均值和样本协方差矩阵我们从生成数据开始，熟悉该过程并确保估计过程给出正确的结果（即完整性检查）。然后使用真实的市场数据并拟合不同的模型。让我们生成合..

R语言

编程开发

原创 2021-05-12 13:40:41 754 阅读

R语言神经网络模型预测车辆数量时间序列

原文链接：http://tecdat.cn/?p=19980具有单个隐藏层和滞后输入的前馈神经网络，可以用于预测单变量时间序列。将神经网络模型拟合到以时间序列的滞后值作为输入的时间序列。因此它是一个非线性的模型，不可能得出预测区间。因此我们使用仿真。读取数据进行可视化：## # A tibble: 6 x 2## Date Actual## <dttm> <dbl>## 1 2016-01-11 26## 2 20.

R语言

编程开发

原创 2021-05-12 13:40:38 145 阅读

R语言基于递归神经网络RNN的温度时间序列预测

原文链接：http://tecdat.cn/?p=20335在本文中，我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。我们演示有关温度预测问题的三个概念，我们使用建筑物屋顶上的传感器的时间数据序列。概述在本文中，我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。在最后，您将了解有关将循环网络与Keras一起使用的大部分知识。您可以访问来自建筑物屋顶上的传感器的时间数据序列，例如温度，气压和湿度，这些数据点可用于预测最后一个数据点之后24小时的温度。这是一个相当具有挑战...

R语言

编程开发

原创 2021-05-12 13:40:36 413 阅读

R语言Fama-French三因子模型实际应用：优化投资组合

本文将说明金融数学中的R 语言优化投资组合，因子模型的实现和使用。具有单一市场因素的宏观经济因素模型我们将从一个包含单个已知因子（即市场指数）的简单示例开始。该模型为其中显式因子ft为S＆P 500指数。我们将做一个简单的最小二乘（LS）回归来估计截距α和加载β：大多数代码行用于准备数据，而不是执行因子建模。让我们开始准备数据：library(xts)library(quantmod)# 设置开始结束日期和股票名称列表begin_date <- "2016-01

R语言

编程开发

原创 2021-05-12 13:40:32 262 阅读

R语言ARIMA，SARIMA预测道路交通流量时间序列:季节性、周期性

本文从实践角度讨论了季节性单位根。我们考虑一些时间序列，例如道路上的交通流量，> plot(T,X,type="l")> reg=lm(X~T)> abline(reg,col="red")如果存在趋势，我们应该将其删除，然后处理残差> Y=residuals(reg)> acf(Y,lag=36,lwd=3)我们可以看到这里有一些季节性。第一个策略可能是假设存在季节性单位根，因此我们考虑，我们尝试找到ARMA模型。考虑时间序列的...

R语言

编程开发

原创 2021-05-12 13:40:28 1727 阅读

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

原文链接：http://tecdat.cn/?p=20531 在标准线性模型中，我们假设。当线性假设无法满足时，可以考虑使用其他方法。多项式回归扩展可能是假设某些多项式函数，同样，在标准线性模型方法（使用GLM的条件正态分布）中，参数可以使用最小二乘法获得，其中在。即使此多项式模型不是真正的多项式模型，也可能仍然是一个很好的近似值。实际上，根据Stone-Weierstrass定理，如果在某个区间上是连续的，则有一个统一的近似值，通过多项式函...

R语言

编程开发

原创 2021-05-12 13:40:26 1073 阅读

R语言建模收入不平等：分布函数拟合及洛伦兹曲线(Lorenz curve)

洛伦兹曲线来源于经济学，用于描述社会收入不均衡的现象。将收入降序排列，分别计算收入和人口的累积比例。本文，我们研究收入和不平等。我们从一些模拟数据开始> (income=sort(income))[1] 19246 23764 53237 61696 218835为什么说这个样本中存在不平等？如果我们看一下最贫穷者拥有的财富，最贫穷的人（五分之一）拥有5％的财富；倒数五分之二拥有11％，依此类推> income[1]/sum(income)[1] 0.0510

R语言

编程开发

原创 2021-05-12 13:40:23 693 阅读

R语言建立和可视化混合效应模型mixed effect model

原文链接：http://tecdat.cn/?p=20631我们已经学习了如何处理混合效应模型。本文的重点是如何建立和可视化混合效应模型的结果。设置本文使用数据集，用于探索草食动物种群对珊瑚覆盖的影响。knitr::opts_chunk$set(echo = TRUE)library(tidyverse) # 数据处理library(lme4) # lmer glmer 模型me_data <- read_csv("mixede.csv")创建一个基...

R语言

编程开发

原创 2021-05-12 13:40:21 2078 阅读

R语言中生存分析模型与时间依赖性ROC曲线可视化

原文链接：http://tecdat.cn/?p=20650人们通常使用接收者操作特征曲线（ROC）进行二元结果逻辑回归。但是，流行病学研究中感兴趣的结果通常是事件发生时间。使用随时间变化的时间相关ROC可以更全面地描述这种情况下的预测模型。时间相关的ROC定义令 Mi为用于死亡率预测的基线（时间0）标量标记。当随时间推移观察到结果时，其预测性能取决于评估时间t。直观地说，在零时间测量的标记值应该变得不那么相关。因此，ROC测得的预测性能（区分）是时间t的函数。累积病例累...

R语言

编程开发

原创 2021-05-12 13:40:02 1725 阅读

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

原文链接：http://tecdat.cn/?p=20828本文使用lasso或非凸惩罚拟合线性回归，GLM和Cox回归模型的正则化，特别是最小最大凹度惩罚函数(MCP)和光滑切片绝对偏差惩罚（SCAD），以及其他L2惩罚的选项（ “弹性网络”）。还提供了用于执行交叉验证以及拟合后可视化，摘要，推断和预测的实用程序。我们研究前列腺数据，它具有8个变量和一个连续因变量，即将进行根治性前列腺切除术的男性的PSA水平（按对数尺度）：X <- data$Xy <- data$...

R语言

编程开发

原创 2021-05-12 13:39:59 1163 阅读

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据

原文链接：http://tecdat.cn/?p=20904 环境科学中的许多数据不适合简单的线性模型，最好用广义相加模型（GAM）来描述。

R语言

编程开发

原创 2021-05-12 13:39:57 1201 阅读

R语言中实现广义相加模型GAM和普通最小二乘(OLS)回归

这篇文章探讨了为什么使用广义相加模型是一个不错的选择。为此，我们首先需要看一下线性回归，看看为什么在某些情况下它可能不是最佳选择。

R语言

编程开发

原创 2021-05-12 13:39:55 1085 阅读

R语言分布滞后非线性模型（DLNM）研究发病率，死亡率和空气污染示例

本文提供了运行分布滞后非线性模型的示例，同时描述了预测变量和结果之间的非线性和滞后效应，这种相互关系被定义为暴露-滞后-反应关联。

R语言

编程开发

原创 2021-05-12 13:39:52 788 阅读 1收藏

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

原文链接：http://tecdat.cn/?p=20953序言本文演示了在时间序列分析中应用分布滞后线性和非线性模型（DLMs和DLNMs）。Gasparrini等人[2010]和Gasparrini[2011]阐述了DLMs和DLNMs的发展以及时间序列数据的实现。本文描述的示例涵盖了时间序列数据DLNM方法的大多数标准应用，并探讨了DLNM包用于指定、总结和绘制此类模型。尽管这些例子在空气污染和温度对健康的影响方面有具体的应用，但它们很容易被推广到不同的主题，并为分析这些数据集或其他时间.

R语言

编程开发

原创 2021-05-12 13:39:49 940 阅读

R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

原文链接：http://tecdat.cn/?p=20960为了说明层次聚类技术和k-均值，我使用了了城市温度数据集，其中包括几个城市的月平均气温。我们有15个城市，每月进行一次观测boxplot(temp[,1:12],main="月平均温度")由于方差看起来相当稳定，我们不会将这里的变量“标准化”，> apply(月份,2,sd)为了得到一个层次聚类分析，使用实例 hclust(dist , method = "ward") 另...

R语言

编程开发

原创 2021-05-12 13:39:45 358 阅读

R语言用普通最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类

原文链接：http://tecdat.cn/?p=21379本文我们对逻辑回归和样条曲线进行介绍。logistic回归基于以下假设：给定协变量x，Y具有伯努利分布，目的是估计参数β。回想一下，针对该概率使用该函数是（对数）似然函数对数似然其中。数值方法基于（数值）下降梯度来计算似然函数的最大值。对数似然（负）是以下函数negLogLik = function(beta){ -sum(-y*log(1 + exp(-(X%*%...

R语言

编程开发

原创 2021-05-12 13:39:43 404 阅读

R语言极值理论EVT：基于GPD模型的火灾损失分布分析

原文链接：http://tecdat.cn/?p=21425极值理论关注风险损失分布的尾部特征,通常用来分析概率罕见的事件,它可以依靠少量样本数据,在总体分布未知的情况下,得到总体分布中极值的变化情况,具有超越样本数据的估计能力。因此,基于GPD(generalized pareto distribution)分布的模型可更有效地利用有限的巨灾损失数据信息,从而成为极值理论当前的主流技术。针对巨灾发生频率低、损失高、数据不足且具有厚尾性等特点,利用GPD模型对火灾经济损失数据进行了统计建模;..

R语言

编程开发

原创 2021-05-12 13:39:40 566 阅读

R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

原文链接：http://tecdat.cn/?p=21444逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选、概率预测、分类等，例如医学研究中高通里测序技术得到的数据给高维变量选择问题带来挑战，惩罚logisitc回归可以对高维数据进行变量选择和系数估计，且其有效的算法保证了计算的可行性。方法本文介绍了常用的惩罚logistic算法如LASSO、岭回归。方法我们之前已经看到，用于估计参数模型参数的经典估计技术是使用最大似然法。更具体地说，这里的目标函数只关注拟合优度。但.

R语言

编程开发

原创 2021-05-12 13:39:38 2297 阅读 1收藏

R语言线性回归和时间序列分析北京房价影响因素可视化案例

原文链接：http://tecdat.cn/?p=21467目的房价有关的数据可能反映了中国近年来的变化：人们得到更多的资源（薪水），期望有更好的房子人口众多独生子女政策：如何影响家庭的几何结构？更多的卧室，更多的空间我核心的想法是预测房价。然而，我不打算使用任何arima模型；相反，我将使用数据的特性逐年拟合回归。结构如下：数据准备：将数值特征转换为分类；缺失值 EDA:对于数值特征和分类特征:平均价格与这些特征的表现建模：分割训练/测试给定年份的数据：例如..

R语言

编程开发

原创 2021-05-12 13:39:22 620 阅读

R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响

原文链接：http://tecdat.cn/?p=21506当采用两种状态时，单转换函数PSTR模型具有两个变量：我们的经验方法的基础包括评估N个国家的资本流动性。相应的模型定义如下：其中，Iit是第i个国家在时间t时观察到的国内投资与GDP的比率，Sit是国内储蓄与GDP的比率，αi表示单个固定效应。剩余εit假定为i.i.d.（0，σ2ε）。Corbin（2001）特别使用了该模型，该模型有两个主要缺点。首先，它假设在小组的N个国家之间资本的国际流动程度相同，即βi=β，∀i=.

R语言

编程开发

原创 2021-05-12 13:39:20 158 阅读

R语言贝叶斯推断与MCMC：实现Metropolis-Hastings 采样算法示例

示例1：使用MCMC的指数分布采样任何MCMC方案的目标都是从“目标”分布产生样本。在这种情况下，我们将使用平均值为1的指数分布作为我们的目标分布。所以我们从定义目标密度开始：target = function(x){ if(x<0){ return(0)} else { return( exp(-x)) }}定义了函数之后，我们现在可以用它来计算几个值（只是为了说明函数的概念）：target(1)[1] 0.3678794target(-

R语言

编程开发

原创 2021-05-12 13:39:17 954 阅读

R语言分段线性回归分析预测车辆的制动距离

原文链接：http://tecdat.cn/?p=21557分段回归( piecewise regression )，顾名思义，回归式是“分段”拟合的。其灵活用于响应变量随自变量值的改变而存在多种响应状态的情况，二者间难以通过一种回归模型预测或解释时，不妨根据响应状态找到合适的断点位置，然后将自变量划分为有限的区间，并在不同区间内分别构建回归描述二者关系。分段回归最简单最常见的类型就是分段线性回归( piecewise linear regression )，即各分段内的局部回归均为线性回归。..

R语言

编程开发

原创 2021-05-12 13:39:15 1062 阅读

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

原文链接：http://tecdat.cn/?p=21602正则化(regularization)正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。该算法速度快，可以利用输入矩阵x中的稀疏性，拟合线性、logistic和多项式、poisson和Cox回归模型。可以通过拟合模型进行各种预测。它还可以拟合多元线性回归。”例子加载数据这里加载了一个高斯(连续Y)的例子。as_data_frame(y)## # A tibble: 1..

R语言

编程开发

原创 2021-05-12 13:39:12 2658 阅读

R语言基于Bootstrap的线性回归预测置信区间估计方法

原文链接：http://tecdat.cn/?p=21625我们知道参数的置信区间的计算，这些都服从一定的分布(t分布、正态分布），因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时，就无法计算置信区间了吗？幸运的是，有一种方法几乎可以用于计算各种参数的置信区间，这就是Bootstrap 法。本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论。> reg=lm(dist~speed,data=cars)> points(x,pr..

R语言

编程开发

原创 2021-05-12 13:39:09 4031 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

拓端小助手