原文链接:http://tecdat.cn/?p=23050原文出处:拓端数据部落公众号如果您熟悉线性模型,意识到它们的局限,那么您应该学习线性混合模型mixed-model。本视频中,我们讨论了线性混合模型并在R软件中进行应用。视频:线性混合效应模型(LMM,Linear Mixed Models)和R语言实现线性混合效应模型(LMM,Linear Mixed Model
原文链接:http://tecdat.cn/?p=25741原文出处:拓端数据部落公众号此示例显示如何 lasso 识别和舍弃不必要的预测变量。相关 视频:Lasso回归、岭回归等正则化回归数学原理及R语言实例Lasso回归、岭回归等正则化回归数学原理及R语言实例使用各种方法从指数分布生成 200 个五维数据 X 样本。rng(3,'twiste
原文链接:http://tecdat.cn/?p=25749原文出处:拓端数据部落公众号在这篇文章中,我想介绍 现代投资组合理论 (MPT)、 有效边界 以及它对投资组合构建的一些影响。我对如何设计和构建投资组合非常感兴趣。尽管 现代投资组合理论 有其局限性,但它仍然很好地介绍了投资组合构建和投资组合理论。第一部分将简要回顾理解MP
原文链接:http://tecdat.cn/?p=25761原文出处:拓端数据部落公众号VARs的结构也允许联合检验多个方程的限制。视频:向量自回归VAR数学原理及R软件经济数据脉冲响应分析实例【视频】向量自回归VAR数学原理及R语言软件经济数据脉冲响应分析实例,时长12:01例如,检验滞后p的所有回归变量的系数是否为零,可能是有意义的。这相当于检验滞后阶数p-1是正确的原假设。系
原文链接:http://tecdat.cn/?p=25770原文出处:拓端数据部落公众号在本文中,我们展示了 copula GARCH 方法拟合模拟数据和股票数据并进行可视化。 r还提供了一个特殊情况(具有正态或学生 t残差)。一、如何在R中对股票x和y的收益率拟合copula模型数据集为了这个例子的目的,我使用了一个简单的股票x和y的收益率数据集
原文链接:http://tecdat.cn/?p=14997原文出处:拓端数据部落公众号在文本挖掘中,我们经常有文档集合,例如博客文章或新闻文章,我们希望将它们分成自然组,以便我们理解它们。主题建模是一种对此类文档进行分类的方法。在本视频中,我们介绍了潜在狄利克雷分配LDA模型,并通过R软件应用于数据集来理解它。视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据文本
原文链接:http://tecdat.cn/?p=25804原文出处:拓端数据部落公众号这篇文章是关于 copulas 和重尾的。在全球金融危机之前,许多投资者是多元化的。看看下面这张熟悉的图:黑线是近似正态的。红线代表Cauchy分布,它是具有一个自由度的T分布的一个特殊情况。也许是因为Cauchy和t分布混在一起。我们总是可以计算出经验方差。请看下图。这是对1自由度的t分布(红
原文链接:http://tecdat.cn/?p=25860原文出处:拓端数据部落公众号什么是尾部相关性?假设市场出现了属于最差 5% 的日子的回撤:有人可以问,鉴于市场处于蓝色区域,特定股票下跌的概率是多少?我们都了解股票相对于市场的贝塔系数、股票相对于市场的敏感性(例如标准普尔 500 指数)的概念。尾部相关性的概念类似,因为它是股票对市场回撤的敏感性。如果每次市场下跌,股票下
原文链接:http://tecdat.cn/?p=25872原文出处:拓端数据部落公众号从广义上讲,复杂的模型可以实现很高的预测准确性。但是您的读者需要快速理解。他们没有意愿或时间去处理任何太乏味的事情,即使它可以稍微准确一些。简单性是商业中非常重要的模型选择标准。在多元波动率估计中,最简单的方法是使用历史协方差矩阵。但这太简单了,我们已经知道波动性是随时间变化的。您经常看
原文链接:http://tecdat.cn/?p=25880原文出处:拓端数据部落公众号介绍本文描述了一个模型,该模型解释了交易的聚集到达,并展示了如何将其应用于比特币交易数据。这是很有趣的,原因很多。例如,对于交易来说,能够预测在短期内是否有更多的买入或卖出是非常有用的。另一方面,这样的模型可能有助于理解基本新闻驱动价格与机器人交易员对价格变化的反应之间的区别。订单到达的自激性和
原文链接:http://tecdat.cn/?p=6193原文出处:拓端数据部落公众号copula是将多变量分布函数与其边缘分布函数耦合的函数,通常称为边缘。在本视频中,我们通过可视化的方式直观地介绍了Copula函数,并通过R软件应用于金融时间序列数据来理解它。视频:Copula算法原理和R语言股市收益率相依性可视化分析Copula算法原理和R语言股市收益率相依性可视化分
原文链接:http://tecdat.cn/?p=25898原文出处:拓端数据部落公众号对于那些不熟悉“配对交易”概念的人来说几句话。首先,您应该了解,每只股票的走势不是由公司业绩主导,而是由总体市场走势主导。这就是许多“因子模型”的由来,驱动每只股票的因素是 市场因素,在大多数情况下,它与标准普尔指数近似。因此,无论多么伟大的公司,它都经不起任何大规模的市场衰退。假设这
原文链接:http://tecdat.cn/?p=25908原文出处:拓端数据部落公众号介绍假设你做了一个简单的回归,现在你有了你的 . 您想知道它是否与(例如)零显着不同。一般来说,人们会查看他们选择的软件报告的统计数据或 p.value。问题是,这个 p.value 计算依赖于因变量的分布。如果没有不同的说明,您的软件假定为正态分布,那是怎么回事?例如,(95
原文链接:http://tecdat.cn/?p=25921原文出处:拓端数据部落公众号假设调查人员有兴趣检查减肥干预方法的三个组成部分。这三个组成部分是:记录食物日记(是/否)增加活动(是/否)家访(是/否)调查员计划调查所有 ,实验条件的组合。实验条件为要执行因子设计,您需要为多个因子(变量)中的每一个选择固定数量的水平,然后以所有可能的组合运行实验。这些
原文链接:http://tecdat.cn/?p=25939原文出处:拓端数据部落公众号在之前的文章中,我们研究了许多使用 多输出回归分析的方法。在本教程中,我们将学习如何使用梯度提升决策树GRADIENT BOOSTING REGRESSOR拟合和预测多输出回归数据。对于给定的 x 输入数据,多输出数据包含多个目标标签。本教程涵盖:准备数据定义模型预测和可视化结果我们将从加载本教
原文链接:http://tecdat.cn/?p=3795原文出处:拓端数据部落公众号在本视频中,我们将介绍Lasso套索回归、岭回归等正则化的回归方法的数学原理以及R软件实例。视频:Lasso回归、岭回归正则化回归数学原理及R软件实例Lasso回归、岭回归等正则化回归数学原理及R语言实例,时长13:27为什么要LASSO套索回归?套索可以通过选择最小化预测误差的变量子
原文链接:http://tecdat.cn/?p=25957原文出处:拓端数据部落公众号介绍当您处理金融时间序列时,我们通常可以获得相对高频的观察结果。例如,每天进行观察是很常见的。事实上,现在可以获得每小时、分钟、秒甚至毫秒的观测值。使用的包有许多软件包可以使我们能够估计波动率模型。我们还将使用该 quantmod 软件包,因为它可以让我们轻松访问一些
原文链接:http://tecdat.cn/?p=26096原文出处:拓端数据部落公众号摘要我们首先介绍扩展 Rasch 模型的方法论,然后是一般程序描述和应用主题,包括简单的 Rasch 模型、评级量表模型、部分信用模型及其线性扩展。这种线性结构的结合允许对协变量的影响进行建模,并能够分析重复的分类测量。简介Rost (1999) 在他的文章中声称,“尽管 Rasch 模型已经存
原文链接:http://tecdat.cn/?p=26105原文出处:拓端数据部落公众号潜类别轨迹建模 (LCTM) 是流行病学中一种相对较新的方法,用于描述生命过程中的暴露,它将异质人群简化为同质模式或类别。然而,对于给定的数据集,可以根据类的数量、模型结构和轨迹属性得出不同模型的分数。本文说明了LCTM的基本用法,用于汇总拟合的潜在类轨迹模型对象的输出。要安装 R 包,
原文链接:http://tecdat.cn/?p=26124原文出处:拓端数据部落公众号赌徒的破产问题是指玩家有获胜的概率p和失败的概率q。例如,让我们来看看一个技能游戏,玩家X可以通过接近目标,以0.6的概率击败玩家Y。游戏开始时,玩家X被分配到5分,玩家Y被分配到10分。每轮游戏后,玩家的积分要么减少一个,要么增加一个,我们可以确定玩家X将赢过玩家Y的概率。这类问题的应用范围很
原文链接:http://tecdat.cn/?p=26131原文出处:拓端数据部落公众号纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现了几部大热作品,加之BBC纪录片造假的舆论导向,让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站,是目前主流视频网站上最丰富、最接近的数据来源。数字特征和文本特征相结合,分析影响播放量的
原文链接:http://tecdat.cn/?p=9368原文出处:拓端数据部落公众号向量自回归 (VAR) 是一种用于多变量时间序列分析的统计模型,尤其是在变量具有相互影响关系的时间序列中,本视频中我们介绍了向量自回归并在R软件中进行实现。视频:向量自回归VAR数学原理及R软件经济数据脉冲响应分析实例【视频】向量自回归VAR数学原理及R语言软件经济数据脉冲响应分析实例,时长12:
原文链接:http://tecdat.cn/?p=26147原文出处:拓端数据部落公众号本文使用的数据集记录了 1236 名新生婴儿的体重,以及他们母亲的其他协变量。本研究的目的是测量吸烟对新生儿体重的影响。研究人员需要通过控制其他协变量(例如母亲的体重和身高)来隔离其影响。这可以通过使用多元回归模型来完成,例如,通过考虑权重 Y_i 可以建模为str(ba
原文链接:http://tecdat.cn/?p=26158原文出处:拓端数据部落公众号弹性网络正则化同时应用 L1 范数和 L2 范数正则化来惩罚回归模型中的系数。为了在 R 中应用弹性网络正则化。在 LASSO回归中,我们为 alpha 参数设置一个 '1' 值,并且在 岭回归中,我们将 '0' 值设置为其 alpha 参数。弹性网络在 0 到 1 的范围内搜
原文链接:http://tecdat.cn/?p=10278原文出处:拓端数据部落公众号生存分析(也称为工程中的可靠性分析)的目标是在协变量和事件时间之间建立联系。生存分析的名称源于临床研究,其中预测死亡时间,即生存,通常是主要目标。视频:R语言生存分析原理与晚期肺癌患者分析案例R语言生存分析Survival analysis原理与晚期肺癌患者分析案例,时长08:41生存分析是一种
原文链接:http://tecdat.cn/?p=26177原文出处:拓端数据部落公众号GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用 已知目标值的训练数据来创建模型 ,然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据,则该模型可以 很好地 推广。良好的概括是预测任务的主要
原文链接:http://tecdat.cn/?p=26184原文出处:拓端数据部落公众号在此数据集中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化?有25个变量:1. ID: 每个客户的ID2. LIMIT_BAL: 金额3. SEX: 性别(1 =男,2 =女)4.教育程度:
原文出处:拓端数据部落公众号结构方程建模 (SEM) 是一种全面而灵活的方法,包括在假设模型中研究变量之间的关系,无论它们是测量的还是潜在的,这意味着不可直接观察到,就像任何心理构造(例如,智力、满意度,希望,信任)。因为它是一种多元分析方法,它结合了因子分析的输入以及基于或衍生自多元回归分析方法和规范分析的方法。灵活,因
原文链接:://tecdat.cn/?p=26219原文出处:拓端数据部落公众号银行数据集我们的数据集描述该数据与银行机构的直接营销活动相关,营销活动基于电话。通常,需要与同一客户的多个联系人联系,以便访问产品(银行定期存款)是否会(“是”)或不会(“否”)订阅。y - 客户是否订阅了定期存款?(二进制:'是','否')我们的目标是选择最好的回归模型来让客户订阅或不订阅定期
原文链接:http://tecdat.cn/?p=22482原文出处:拓端数据部落公众号为什么要使用Boosting?单一模型的预测往往会有缺陷,为了解决复杂的问题,我们需要集成学习通过组合多个模型来提高机器学习的预测性能。视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例,
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号