本文使用波兰公寓价格数据说明Fisher检验。
本文将使用一个小数据说明ROC曲线,其中n = 10个观测值,两个连续变量x_1和x_2,以及二元变量y∈{0,1}。
在所有双射函数的意义上,最大似然估计是不变的 如果 是的最大似然估计 然后 。让 , 然后 等于 和中的似然函数 是 。由于 是的最大似然估计 ,
现在,分位数回归已被确立为重要的计量经济学工具。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数。您可以使用它来查找具有良好上升潜力的股票。
自组织映射 (SOM)是一种工具,通过生成二维表示来可视化高维数据中的模式,在高维结构中显示有意义的模式。通过以下方式使用给定的数据(或数据样本)对SOM进行“训练”:
原文链接:http://tecdat.cn/?p=20031简介资本资产定价模型(CAPM)是用于确定是否在一个特定资产的投资是值得的。本质上,问题是:“该资产的回报是否值得投资?” 在本教程中,我们将应用CAPM模型,使用多元回归模型查看特定股票是否值得投资。CAPM:公式经济学就是权衡取舍。根据CAPM公式,基本上将股票或任何类型的资产类别与相对无风险的资产(通常是政府债券)进行比较,因为这些资产的违约概率非常低。CAPM公式如下E(Ri)是期望收益率。 Rf是无风险...
原文链接:http://tecdat.cn/?p=20015本文将说明单变量和多变量金融时间序列的不同模型,特别是条件均值和条件协方差矩阵、波动率的模型。均值模型本节探讨条件均值模型。iid模型我们从简单的iid模型开始。iid模型假定对数收益率xt为N维高斯时间序列:均值和协方差矩阵的样本估计量分别是样本均值和样本协方差矩阵我们从生成数据开始,熟悉该过程并确保估计过程给出正确的结果(即完整性检查)。然后使用真实的市场数据并拟合不同的模型。让我们生成合..
原文链接:http://tecdat.cn/?p=19980具有单个隐藏层和滞后输入的前馈神经网络,可以用于预测单变量时间序列。将神经网络模型拟合到以时间序列的滞后值作为输入的时间序列。因此它是一个非线性的模型,不可能得出预测区间。因此我们使用仿真。读取数据进行可视化:## # A tibble: 6 x 2## Date Actual## <dttm> <dbl>## 1 2016-01-11 26## 2 20.
原文链接:http://tecdat.cn/?p=20335在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。我们演示有关温度预测问题的三个概念,我们使用建筑物屋顶上的传感器的时间数据序列。概述在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。在最后,您将了解有关将循环网络与Keras一起使用的大部分知识。您可以访问来自建筑物屋顶上的传感器的时间数据序列,例如温度,气压和湿度,这些数据点可用于预测最后一个数据点之后24小时的温度。这是一个相当具有挑战...
本文将说明金融数学中的R 语言优化投资组合,因子模型的实现和使用。具有单一市场因素的宏观经济因素模型我们将从一个包含单个已知因子(即市场指数)的简单示例开始。该模型为其中显式因子ft为S&P 500指数。我们将做一个简单的最小二乘(LS)回归来估计截距α和加载β:大多数代码行用于准备数据,而不是执行因子建模。让我们开始准备数据:library(xts)library(quantmod)# 设置开始结束日期和股票名称列表begin_date <- "2016-01
本文从实践角度讨论了季节性单位根。我们考虑一些时间序列,例如道路上的交通流量,> plot(T,X,type="l")> reg=lm(X~T)> abline(reg,col="red")如果存在趋势,我们应该将其删除,然后处理残差> Y=residuals(reg)> acf(Y,lag=36,lwd=3)我们可以看到这里有一些季节性。第一个策略可能是假设存在季节性单位根,因此我们考虑,我们尝试找到ARMA模型。考虑时间序列的...
原文链接:http://tecdat.cn/?p=20531 在标准线性模型中,我们假设。当线性假设无法满足时,可以考虑使用其他方法。 多项式回归 扩展可能是假设某些多项式函数,同样,在标准线性模型方法(使用GLM的条件正态分布)中,参数可以使用最小二乘法获得,其中在。即使此多项式模型不是真正的多项式模型,也可能仍然是一个很好的近似值。实际上,根据Stone-Weierstrass定理,如果在某个区间上是连续的,则有一个统一的近似值,通过多项式函...
洛伦兹曲线来源于经济学,用于描述社会收入不均衡的现象。将收入降序排列,分别计算收入和人口的累积比例。本文,我们研究收入和不平等。我们从一些模拟数据开始> (income=sort(income))[1] 19246 23764 53237 61696 218835为什么说这个样本中存在不平等?如果我们看一下最贫穷者拥有的财富,最贫穷的人(五分之一)拥有5%的财富;倒数五分之二拥有11%,依此类推> income[1]/sum(income)[1] 0.0510
原文链接:http://tecdat.cn/?p=20631我们已经学习了如何处理混合效应模型。本文的重点是如何建立和可视化混合效应模型的结果。设置本文使用数据集,用于探索草食动物种群对珊瑚覆盖的影响。knitr::opts_chunk$set(echo = TRUE)library(tidyverse) # 数据处理library(lme4) # lmer glmer 模型me_data <- read_csv("mixede.csv")创建一个基...
原文链接:http://tecdat.cn/?p=20650人们通常使用接收者操作特征曲线(ROC)进行二元结果逻辑回归。但是,流行病学研究中感兴趣的结果通常是事件发生时间。使用随时间变化的时间相关ROC可以更全面地描述这种情况下的预测模型。时间相关的ROC定义令 Mi为用于死亡率预测的基线(时间0)标量标记。当随时间推移观察到结果时,其预测性能取决于评估时间t。直观地说,在零时间测量的标记值应该变得不那么相关。因此,ROC测得的预测性能(区分)是时间t的函数。累积病例累...
原文链接:http://tecdat.cn/?p=20828本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化,特别是最小最大凹度惩罚函数(MCP)和光滑切片绝对偏差惩罚(SCAD),以及其他L2惩罚的选项( “弹性网络”)。还提供了用于执行交叉验证以及拟合后可视化,摘要,推断和预测的实用程序。我们研究前列腺数据,它具有8个变量和一个连续因变量,即将进行根治性前列腺切除术的男性的PSA水平(按对数尺度):X <- data$Xy <- data$...
原文链接:http://tecdat.cn/?p=20904 环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。
这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。
本文提供了运行分布滞后非线性模型的示例,同时描述了预测变量和结果之间的非线性和滞后效应,这种相互关系被定义为暴露-滞后-反应关联。
原文链接:http://tecdat.cn/?p=20953序言本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。Gasparrini等人[2010]和Gasparrini[2011]阐述了DLMs和DLNMs的发展以及时间序列数据的实现。本文描述的示例涵盖了时间序列数据DLNM方法的大多数标准应用,并探讨了DLNM包用于指定、总结和绘制此类模型。尽管这些例子在空气污染和温度对健康的影响方面有具体的应用,但它们很容易被推广到不同的主题,并为分析这些数据集或其他时间.
原文链接:http://tecdat.cn/?p=20960为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温。我们有15个城市,每月进行一次观测boxplot(temp[,1:12],main="月平均温度")由于方差看起来相当稳定,我们不会将这里的变量“标准化”,> apply(月份,2,sd)为了得到一个层次聚类分析,使用实例 hclust(dist , method = "ward") 另...
原文链接:http://tecdat.cn/?p=21379本文我们对逻辑回归和样条曲线进行介绍。logistic回归基于以下假设:给定协变量x,Y具有伯努利分布,目的是估计参数β。回想一下,针对该概率使用该函数是(对数)似然函数对数似然其中。数值方法基于(数值)下降梯度来计算似然函数的最大值。对数似然(负)是以下函数negLogLik = function(beta){ -sum(-y*log(1 + exp(-(X%*%...
原文链接:http://tecdat.cn/?p=21425极值理论关注风险损失分布的尾部特征,通常用来分析概率罕见的事件,它可以依靠少量样本数据,在总体分布未知的情况下,得到总体分布中极值的变化情况,具有超越样本数据的估计能力。因此,基于GPD(generalized pareto distribution)分布的模型可更有效地利用有限的巨灾损失数据信息,从而成为极值理论当前的主流技术。针对巨灾发生频率低、损失高、数据不足且具有厚尾性等特点,利用GPD模型对火灾经济损失数据进行了统计建模;..
原文链接:http://tecdat.cn/?p=21444逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选、概率预测、分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问题带来挑战,惩罚logisitc回归可以对高维数据进行变量选择和系数估计,且其有效的算法保证了计算的可行性。方法本文介绍了常用的惩罚logistic算法如LASSO、岭回归。方法我们之前已经看到,用于估计参数模型参数的经典估计技术是使用最大似然法。更具体地说,这里的目标函数只关注拟合优度。但.
原文链接:http://tecdat.cn/?p=21467目的房价有关的数据可能反映了中国近年来的变化:人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策:如何影响家庭的几何结构?更多的卧室,更多的空间我核心的想法是预测房价。然而,我不打算使用任何arima模型;相反,我将使用数据的特性逐年拟合回归。结构如下:数据准备:将数值特征转换为分类;缺失值 EDA:对于数值特征和分类特征:平均价格与这些特征的表现 建模: 分割训练/测试给定年份的数据:例如..
原文链接:http://tecdat.cn/?p=21506当采用两种状态时,单转换函数PSTR模型具有两个变量:我们的经验方法的基础包括评估N个国家的资本流动性。相应的模型定义如下:其中,Iit是第i个国家在时间t时观察到的国内投资与GDP的比率,Sit是国内储蓄与GDP的比率,αi表示单个固定效应。剩余εit假定为i.i.d.(0,σ2ε)。Corbin(2001)特别使用了该模型,该模型有两个主要缺点。首先,它假设在小组的N个国家之间资本的国际流动程度相同,即βi=β,∀i=.
示例1:使用MCMC的指数分布采样任何MCMC方案的目标都是从“目标”分布产生样本。在这种情况下,我们将使用平均值为1的指数分布作为我们的目标分布。所以我们从定义目标密度开始:target = function(x){ if(x<0){ return(0)} else { return( exp(-x)) }}定义了函数之后,我们现在可以用它来计算几个值(只是为了说明函数的概念):target(1)[1] 0.3678794target(-
原文链接:http://tecdat.cn/?p=21557分段回归( piecewise regression ),顾名思义,回归式是“分段”拟合的。其灵活用于响应变量随自变量值的改变而存在多种响应状态的情况,二者间难以通过一种回归模型预测或解释时,不妨根据响应状态找到合适的断点位置,然后将自变量划分为有限的区间,并在不同区间内分别构建回归描述二者关系。 分段回归最简单最常见的类型就是分段线性回归( piecewise linear regression ),即各分段内的局部回归均为线性回归。..
原文链接:http://tecdat.cn/?p=21602正则化(regularization)正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径。该算法速度快,可以利用输入矩阵x中的稀疏性,拟合线性、logistic和多项式、poisson和Cox回归模型。可以通过拟合模型进行各种预测。它还可以拟合多元线性回归。”例子加载数据这里加载了一个高斯(连续Y)的例子。as_data_frame(y)## # A tibble: 1..
原文链接:http://tecdat.cn/?p=21625我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论。> reg=lm(dist~speed,data=cars)> points(x,pr..
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号