拓端小助手的博客_原创(11)

【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例

原文链接：http://tecdat.cn/?p=23050原文出处：拓端数据部落公众号如果您熟悉线性模型，意识到它们的局限，那么您应该学习线性混合模型mixed-model。本视频中，我们讨论了线性混合模型并在R软件中进行应用。视频：线性混合效应模型(LMM,Linear Mixed Models)和R语言实现线性混合效应模型(LMM,Linear Mixed Model

拟合

数据

r语言

原创 2022-04-16 11:27:20 565 阅读 yyds干货盘点

MATLAB用Lasso回归拟合高维数据和交叉验证

原文链接：http://tecdat.cn/?p=25741原文出处：拓端数据部落公众号此示例显示如何 lasso 识别和舍弃不必要的预测变量。相关视频：Lasso回归、岭回归等正则化回归数学原理及R语言实例Lasso回归、岭回归等正则化回归数学原理及R语言实例使用各种方法从指数分布生成 200 个五维数据 X 样本。rng(3,'twiste

r语言

交叉验证

数据

原创 2022-04-16 11:25:57 1621 阅读 yyds干货盘点

Python用Markowitz马克维兹有效边界构建最优投资组合可视化分析四只股票

原文链接：http://tecdat.cn/?p=25749原文出处：拓端数据部落公众号在这篇文章中，我想介绍现代投资组合理论 (MPT)、有效边界以及它对投资组合构建的一些影响。我对如何设计和构建投资组合非常感兴趣。尽管现代投资组合理论有其局限性，但它仍然很好地介绍了投资组合构建和投资组合理论。第一部分将简要回顾理解MP

标准差

权重

数据

原创 2022-04-16 11:25:34 469 阅读 yyds干货盘点

R语言向量自回归VAR的迭代多元预测估计 GDP 增长率时间序列

原文链接：http://tecdat.cn/?p=25761原文出处：拓端数据部落公众号VARs的结构也允许联合检验多个方程的限制。视频：向量自回归VAR数学原理及R软件经济数据脉冲响应分析实例【视频】向量自回归VAR数学原理及R语言软件经济数据脉冲响应分析实例，时长12:01例如，检验滞后p的所有回归变量的系数是否为零，可能是有意义的。这相当于检验滞后阶数p-1是正确的原假设。系

迭代

时间序列

r语言

原创 2022-04-16 11:25:13 866 阅读 yyds干货盘点

R语言ARMA GARCH COPULA模型拟合股票收益率时间序列和模拟可视化

原文链接：http://tecdat.cn/?p=25770原文出处：拓端数据部落公众号在本文中，我们展示了 copula GARCH 方法拟合模拟数据和股票数据并进行可视化。 r还提供了一个特殊情况（具有正态或学生 t残差）。一、如何在R中对股票x和y的收益率拟合copula模型数据集为了这个例子的目的，我使用了一个简单的股票x和y的收益率数据集

数据

拟合

r语言

原创 2022-04-16 11:24:48 743 阅读 yyds干货盘点

【视频】文本挖掘：主题模型（LDA）及R语言实现分析游记数据

原文链接：http://tecdat.cn/?p=14997原文出处：拓端数据部落公众号在文本挖掘中，我们经常有文档集合，例如博客文章或新闻文章，我们希望将它们分成自然组，以便我们理解它们。主题建模是一种对此类文档进行分类的方法。在本视频中，我们介绍了潜在狄利克雷分配LDA模型，并通过R软件应用于数据集来理解它。视频：文本挖掘：主题模型（LDA）及R语言实现分析游记数据文本

建模

数据

文本挖掘

原创 2022-04-16 11:24:24 335 阅读 yyds干货盘点

R语言Copula模型分析股票市场板块相关性结构

原文链接：http://tecdat.cn/?p=25804原文出处：拓端数据部落公众号这篇文章是关于 copulas 和重尾的。在全球金融危机之前，许多投资者是多元化的。看看下面这张熟悉的图：黑线是近似正态的。红线代表Cauchy分布，它是具有一个自由度的T分布的一个特殊情况。也许是因为Cauchy和t分布混在一起。我们总是可以计算出经验方差。请看下图。这是对1自由度的t分布（红

数据

r语言

建模

原创 2022-04-16 11:24:00 684 阅读 yyds干货盘点

拓端tecdat|R语言分析股市相关结构：用回归估计股票尾部相关性（相依性、依赖性）

原文链接：http://tecdat.cn/?p=25860原文出处：拓端数据部落公众号什么是尾部相关性？假设市场出现了属于最差 5% 的日子的回撤：有人可以问，鉴于市场处于蓝色区域，特定股票下跌的概率是多少？我们都了解股票相对于市场的贝塔系数、股票相对于市场的敏感性（例如标准普尔 500 指数）的概念。尾部相关性的概念类似，因为它是股票对市场回撤的敏感性。如果每次市场下跌，股票下

r语言

偏最小二乘

一对一

原创 2022-04-16 11:22:13 219 阅读 yyds干货盘点

拓端tecdat|R语言指数加权模型EWMA预测股市多变量波动率时间序列

原文链接：http://tecdat.cn/?p=25872原文出处：拓端数据部落公众号从广义上讲，复杂的模型可以实现很高的预测准确性。但是您的读者需要快速理解。他们没有意愿或时间去处理任何太乏味的事情，即使它可以稍微准确一些。简单性是商业中非常重要的模型选择标准。在多元波动率估计中，最简单的方法是使用历史协方差矩阵。但这太简单了，我们已经知道波动性是随时间变化的。您经常看

r语言

权重

协方差矩阵

原创 2022-04-16 11:21:50 215 阅读 yyds干货盘点

拓端tecdat|R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

原文链接：http://tecdat.cn/?p=25880原文出处：拓端数据部落公众号介绍本文描述了一个模型，该模型解释了交易的聚集到达，并展示了如何将其应用于比特币交易数据。这是很有趣的，原因很多。例如，对于交易来说，能够预测在短期内是否有更多的买入或卖出是非常有用的。另一方面，这样的模型可能有助于理解基本新闻驱动价格与机器人交易员对价格变化的反应之间的区别。订单到达的自激性和

拟合

时间戳

数据

原创 2022-04-16 11:21:26 217 阅读 yyds干货盘点

【视频】Copula算法原理和R语言股市收益率相依性可视化分析

原文链接：http://tecdat.cn/?p=6193原文出处：拓端数据部落公众号copula是将多变量分布函数与其边缘分布函数耦合的函数，通常称为边缘。在本视频中，我们通过可视化的方式直观地介绍了Copula函数，并通过R软件应用于金融时间序列数据来理解它。视频：Copula算法原理和R语言股市收益率相依性可视化分析Copula算法原理和R语言股市收益率相依性可视化分

r语言

数据

建模

原创 2022-04-16 11:20:58 363 阅读 yyds干货盘点

拓端tecdat|R语言用回归构建配对交易(Pairs Trading)策略量化模型分析股票收益和价格

原文链接：http://tecdat.cn/?p=25898原文出处：拓端数据部落公众号对于那些不熟悉“配对交易”概念的人来说几句话。首先，您应该了解，每只股票的走势不是由公司业绩主导，而是由总体市场走势主导。这就是许多“因子模型”的由来，驱动每只股票的因素是市场因素，在大多数情况下，它与标准普尔指数近似。因此，无论多么伟大的公司，它都经不起任何大规模的市场衰退。假设这

r语言

神经网络

时间序列

原创 2022-04-16 11:20:31 173 阅读 yyds干货盘点

拓端tecdat|R语言Bootstrap(自举法，自抽样法)估计回归置信区间分析股票收益

原文链接：http://tecdat.cn/?p=25908原文出处：拓端数据部落公众号介绍假设你做了一个简单的回归，现在你有了你的 . 您想知道它是否与（例如）零显着不同。一般来说，人们会查看他们选择的软件报告的统计数据或 p.value。问题是，这个 p.value 计算依赖于因变量的分布。如果没有不同的说明，您的软件假定为正态分布，那是怎么回事？例如，（95

bootstrap

正态分布

r语言

原创 2022-04-16 11:20:06 282 阅读 yyds干货盘点

拓端tecdat|R语言两层2^k析因试验设计（因子设计）分析工厂产量数据和Lenth方法检验显著性可视化

原文链接：http://tecdat.cn/?p=25921原文出处：拓端数据部落公众号假设调查人员有兴趣检查减肥干预方法的三个组成部分。这三个组成部分是：记录食物日记（是/否）增加活动（是/否）家访（是/否）调查员计划调查所有，实验条件的组合。实验条件为要执行因子设计，您需要为多个因子（变量）中的每一个选择固定数量的水平，然后以所有可能的组合运行实验。这些

方差

数据

正态分布

原创 2022-04-16 11:19:32 547 阅读 yyds干货盘点

拓端tecdat|Python进行多输出（多因变量）回归：集成学习梯度提升决策树GRADIENT BOOSTING REGRESSOR回归训练和预测可视

原文链接：http://tecdat.cn/?p=25939原文出处：拓端数据部落公众号在之前的文章中，我们研究了许多使用多输出回归分析的方法。在本教程中，我们将学习如何使用梯度提升决策树GRADIENT BOOSTING REGRESSOR拟合和预测多输出回归数据。对于给定的 x 输入数据，多输出数据包含多个目标标签。本教程涵盖：准备数据定义模型预测和可视化结果我们将从加载本教

数据

r语言

数据集

原创 2022-04-16 11:19:03 431 阅读 yyds干货盘点

R语言单变量和多变量（多元）动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率

原文链接：http://tecdat.cn/?p=3795原文出处：拓端数据部落公众号在本视频中，我们将介绍Lasso套索回归、岭回归等正则化的回归方法的数学原理以及R软件实例。视频：Lasso回归、岭回归正则化回归数学原理及R软件实例Lasso回归、岭回归等正则化回归数学原理及R语言实例，时长13:27为什么要LASSO套索回归？套索可以通过选择最小化预测误差的变量子

数据

岭回归

拟合

原创 2022-04-16 11:18:24 2569 阅读 yyds干货盘点

R语言单变量和多变量（多元）动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率

原文链接：http://tecdat.cn/?p=25957原文出处：拓端数据部落公众号介绍当您处理金融时间序列时，我们通常可以获得相对高频的观察结果。例如，每天进行观察是很常见的。事实上，现在可以获得每小时、分钟、秒甚至毫秒的观测值。使用的包有许多软件包可以使我们能够估计波动率模型。我们还将使用该 quantmod 软件包，因为它可以让我们轻松访问一些

数据

方差

r语言

原创 2022-04-16 11:17:45 1681 阅读 yyds干货盘点

R语言IRT理论：扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化

原文链接：http://tecdat.cn/?p=26096原文出处：拓端数据部落公众号摘要我们首先介绍扩展 Rasch 模型的方法论，然后是一般程序描述和应用主题,包括简单的 Rasch 模型、评级量表模型、部分信用模型及其线性扩展。这种线性结构的结合允许对协变量的影响进行建模，并能够分析重复的分类测量。简介Rost (1999) 在他的文章中声称，“尽管 Rasch 模型已经存

数据

r语言

拟合

原创 2022-04-16 11:17:02 750 阅读 yyds干货盘点

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

原文链接：http://tecdat.cn/?p=26105原文出处：拓端数据部落公众号潜类别轨迹建模 (LCTM) 是流行病学中一种相对较新的方法，用于描述生命过程中的暴露，它将异质人群简化为同质模式或类别。然而，对于给定的数据集，可以根据类的数量、模型结构和轨迹属性得出不同模型的分数。本文说明了LCTM的基本用法，用于汇总拟合的潜在类轨迹模型对象的输出。要安装 R 包，

方差

r语言

建模

原创 2022-04-16 11:16:27 1203 阅读 yyds干货盘点

R语言马尔可夫链（Markov Chain, MC）模拟赌徒破产模型Gambler‘s Ruin Problem可视化

原文链接：http://tecdat.cn/?p=26124原文出处：拓端数据部落公众号赌徒的破产问题是指玩家有获胜的概率p和失败的概率q。例如，让我们来看看一个技能游戏，玩家X可以通过接近目标，以0.6的概率击败玩家Y。游戏开始时，玩家X被分配到5分，玩家Y被分配到10分。每轮游戏后，玩家的积分要么减少一个，要么增加一个，我们可以确定玩家X将赢过玩家Y的概率。这类问题的应用范围很

r语言

广义线性模型

回归分析

原创 2022-04-16 11:15:38 343 阅读 yyds干货盘点

回归树模型分析纪录片播放量影响因素|数据分享

原文链接：http://tecdat.cn/?p=26131原文出处：拓端数据部落公众号纪录片能够真实、详尽地反映一个地区的风貌，展示经济发展和社会进步。2018年，纪录片发展迅猛，出现了几部大热作品，加之BBC纪录片造假的舆论导向，让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站，是目前主流视频网站上最丰富、最接近的数据来源。数字特征和文本特征相结合，分析影响播放量的

回归树

机器学习

数据

原创 2022-04-16 11:15:03 225 阅读 yyds干货盘点

拓端tecdat|R语言多变量（多元）多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化

原文链接：http://tecdat.cn/?p=9368原文出处：拓端数据部落公众号向量自回归 (VAR) 是一种用于多变量时间序列分析的统计模型，尤其是在变量具有相互影响关系的时间序列中，本视频中我们介绍了向量自回归并在R软件中进行实现。视频：向量自回归VAR数学原理及R软件经济数据脉冲响应分析实例【视频】向量自回归VAR数学原理及R语言软件经济数据脉冲响应分析实例，时长12:

时间序列

r语言

脉冲响应

原创 2022-04-16 11:14:39 712 阅读 yyds干货盘点

拓端tecdat|R语言多变量（多元）多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化

原文链接：http://tecdat.cn/?p=26147原文出处：拓端数据部落公众号本文使用的数据集记录了 1236 名新生婴儿的体重，以及他们母亲的其他协变量。本研究的目的是测量吸烟对新生儿体重的影响。研究人员需要通过控制其他协变量（例如母亲的体重和身高）来隔离其影响。这可以通过使用多元回归模型来完成，例如，通过考虑权重 Y_i 可以建模为str(ba

缺失值

r语言

数据

原创 2022-04-16 11:14:14 208 阅读 yyds干货盘点

R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

原文链接：http://tecdat.cn/?p=26158原文出处：拓端数据部落公众号弹性网络正则化同时应用 L1 范数和 L2 范数正则化来惩罚回归模型中的系数。为了在 R 中应用弹性网络正则化。在 LASSO回归中，我们为 alpha 参数设置一个 '1' 值，并且在岭回归中，我们将 '0' 值设置为其 alpha 参数。弹性网络在 0 到 1 的范围内搜

r语言

正则化

岭回归

原创 2022-04-16 11:13:44 1020 阅读 yyds干货盘点

拓端tecdat|【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

原文链接：http://tecdat.cn/?p=10278原文出处：拓端数据部落公众号生存分析（也称为工程中的可靠性分析）的目标是在协变量和事件时间之间建立联系。生存分析的名称源于临床研究，其中预测死亡时间，即生存，通常是主要目标。视频：R语言生存分析原理与晚期肺癌患者分析案例R语言生存分析Survival analysis原理与晚期肺癌患者分析案例，时长08:41生存分析是一种

数据

数据集

时间间隔

原创 2022-04-16 11:13:02 399 阅读 yyds干货盘点

拓端tecdat|SAS用梯度提升回归树(GBDT)迁移学习预测抵押贷款拖欠风险和垃圾电子邮件数据

原文链接：http://tecdat.cn/?p=26177原文出处：拓端数据部落公众号GBDT梯度提升模型由多个决策树组成。预测模型的目的是根据输入预测目标值。GBDT使用已知目标值的训练数据来创建模型，然后可以将该模型应用于目标未知的观测。如果预测很好地拟合了新数据，则该模型可以很好地推广。良好的概括是预测任务的主要

数据

拟合

迁移学习

原创 2022-04-16 11:12:12 303 阅读 yyds干货盘点

拓端tecdat|Python信贷风控模型：梯度提升Adaboost,XGBoost,SGD, GBOOST, SVC,随机森林, KNN预测金融信贷违约支付和

原文链接：http://tecdat.cn/?p=26184原文出处：拓端数据部落公众号在此数据集中，我们必须预测信贷的违约支付，并找出哪些变量是违约支付的最强预测因子？以及不同人口统计学变量的类别，拖欠还款的概率如何变化？有25个变量：1. ID：每个客户的ID2. LIMIT_BAL：金额3. SEX：性别（1 =男，2 =女）4.教育程度：

搜索

数据

数据集

原创 2022-04-16 11:11:33 264 阅读 yyds干货盘点

拓端tecdat|R语言结构方程模型SEM分析心理学和营销研究数据路径图可视化

原文出处：拓端数据部落公众号结构方程建模 (SEM) 是一种全面而灵活的方法，包括在假设模型中研究变量之间的关系，无论它们是测量的还是潜在的，这意味着不可直接观察到，就像任何心理构造（例如，智力、满意度，希望，信任）。因为它是一种多元分析方法，它结合了因子分析的输入以及基于或衍生自多元回归分析方法和规范分析的方法。灵活，因

r语言

建模

因子分析

原创 2022-04-16 11:10:56 186 阅读 yyds干货盘点

拓端tecdat|Python银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机svm分析营销活动数据

原文链接：://tecdat.cn/?p=26219原文出处：拓端数据部落公众号银行数据集我们的数据集描述该数据与银行机构的直接营销活动相关，营销活动基于电话。通常，需要与同一客户的多个联系人联系，以便访问产品（银行定期存款）是否会（“是”）或不会（“否”）订阅。y - 客户是否订阅了定期存款？（二进制：'是'，'否'）我们的目标是选择最好的回归模型来让客户订阅或不订阅定期

数据

决策树

随机森林

原创 2022-04-16 11:10:19 397 阅读 yyds干货盘点

【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

原文链接：http://tecdat.cn/?p=22482原文出处：拓端数据部落公众号为什么要使用Boosting？单一模型的预测往往会有缺陷，为了解决复杂的问题，我们需要集成学习通过组合多个模型来提高机器学习的预测性能。视频：Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例，

数据

r语言

拟合

原创 2022-04-16 11:09:13 217 阅读 yyds干货盘点

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

拓端小助手