在学习R的过程中,目前我还没有碰过比data.table还高效的数据处理工具。fst可以做到比data.table还高效的数据读写,但计算方面,data.table还是不可替代。然而在处理数据量到TB级别之后,我总觉得data.table的基于csv的数据读写方式也显得不太给力。本次探索Apache spark的R语言接口,也就是Rstudio团队开发的sparklyr,尝试使用该工具达到比dat
转载
2023-07-04 11:56:50
226阅读
使用readr进行数据导入导入数据的方法有很多,相信大家也已经有了自己习惯的方法,所以本节的内容只是给大家提供一个选择。所谓技多不压身!本节较多理论性的东西,大家也可以酌情跳过!7.1 简介本章将学习如何将纯文本格式的矩形文件读入 R。虽然本章内容只是数据导入的冰山一角,但其中的原则完全适用于其他类型的数据。本章末尾将提供 一些有用的 R 包,以处理其他类型的数据。7.2 入门readr 的多数函
转载
2024-08-16 10:06:18
90阅读
# R语言中的boot包:一种强大的重抽样工具
在统计学和数据科学领域,重抽样技术是一种重要的工具,它可以帮助我们评估模型的性能、建立置信区间以及进行假设检验等。在R语言中,`boot`包是实现重抽样技术的一个强大工具。本文将介绍`boot`包的基本用法,并给出代码示例,同时包含序列图和旅行图来帮助理解。
## 1. 什么是boot包?
`boot`包是R语言中用于重抽样的一个包,它提供了一
在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科,
旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类。
R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费,
相对于Python、Orange Canvas、Weka、Kinme这些免费的
R包概述R包是什么为什么学习R包R包的结构R包的工作流程R包的创建预先准备包的创建DESCRIPTION的编写数据文件R函数R文档测试R文件项目文档生成参考资料 R包概述R包是什么R包,类似C、Python中库的概念,指包含特定领域的函数、数据、文档等的集合。通过调用包,可以直接使用包中现成的数据、函数等,使开发方便快捷高效。为什么学习R包R的强大在于包含了各种各样的包,使用包非常有利于便捷开发
转载
2023-09-23 21:15:39
199阅读
前言 最近想试一下捣腾一个 R 包出来,故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇,以及 Hadley 大神(ggplot2 devtools 等一系列包的作者)的 教程。但是前者有一些过时,后者是全英文的,所以我这里记录一下比较简单的过程,给读者们一个参考思路。如果你有一些 R 程序,想塞到去一个自创的 R 包中,那么这篇文章就可能是你想要的。为了方
转载
2023-09-02 15:12:54
589阅读
在数据科学和统计学的应用中,R语言是一款广泛使用的开源编程语言。然而,对于一些复杂的统计模型,例如“引导法”(bootstrapping),用户在实现过程中常常会遇到各种问题。本文旨在通过一系列有组织的分析,以帮助读者更好地理解和解决“boot r语言”问题。
在应用引导法的情况下,尤其是在处理小样本数据时,用户需要依赖R语言中的boot包进行快速而有效的计算。脚本实现可能复杂,尤其对于初学者和
R包介绍及开发(初学者基础详解)一、R包概述1.1 R包简介1.2 R包下载1.3 R包安装1.4 R包使用二、创建R包2.1 R包架构及内容2.2 R包开发的环境配置2.2.1 R包开发准备2.2.2 R包构建工具准备2.2.2.1 R包开发工具包 | devtools包2.2.2.2 工具集 | RTools2.3 R包创建流程2.3.1 命名 | 创建R包2.3.1.1 R包命名规则2.3
R语言数据处理学习记录–使用linkET包完成mental test注:本文仅作为自己的学习记录以备复习查阅一 简单介绍一下这个包依旧是来自于GitHub上,作者给出的介绍:linkET的目标是简单而直接地可视化基于’ ggplot2 '的矩阵热图。其实作者已经给出了非常详细的包的使用方法,从Data processing到后面各种图形的绘制都有详细的代码和图片展示,所以这里just给一些无法很方
转载
2023-11-16 19:33:58
530阅读
线性优化简介优化是一种为所有可能的解决方案找到给定问题的最佳解决方案的技术。优化使用严格的数学模型来找出给定问题的最有效解决方案。要从优化问题开始,首先确定目标非常重要。目标是绩效的量化衡量。例如:最大化利润,最小化时间,最小化成本,最大化销售。优化问题可分为两组线性规划(LP):它也被称为线性优化,在这个问题中,目标是在数学模型中获得最佳结果,其中目标和所有约束是决策变量的线性函数。二次规划(Q
转载
2023-08-08 10:55:31
172阅读
--------仅用于个人学习知识整理和sas/R语言/python代码整理--------文章使用数据都为脱敏模拟数据简介radiant是r的包,基于r shiny开发,可以对数据进行简单的分析,进阶可以进行统计建模分析,并支持报表输出radiant的开发者文档地址:radiant-rstats/docs2 数据导入及启动2.1 导入方法1(推荐使用这个)radiant本质是r语言包,所以可以先
转载
2024-08-30 16:45:10
143阅读
介绍Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。glmnet算法采用循环坐标下降法,它连续优化每个参数上的目标函数并与其他参数固定,并反复循环直至收敛。该软件包还利用强
转载
2024-04-22 23:11:00
92阅读
ggplot2的优点 ggplot2可以让作图者根据ggplot2的作图语法来控制一下作图中的重要的因素,用起来可以说神通广大 ggplot2的主要元素: 1.data:数据 2,Aesthetic mapping:颜色、形状、点的大小与线的粗细 3,Statistical transformations:将数据做统计转换,比如概率密度,计数等等 4,Coordinate system:坐标轴的调
转载
2024-04-14 21:04:35
56阅读
无经验尝试安装Hmisc的目录1. 探索中,想办法2. 更新R的版本3. 将新版R链接到Rstudio4.大功告成5. 总结 1. 探索中,想办法既然要安装Hmisc,我先看一下电脑里有没有这个包啊> library(Hmisc)
载入需要的程辑包:lattice
载入需要的程辑包:survival
载入需要的程辑包:Formula
Error: 找不到‘Hmisc’所需要的程辑包‘ggp
转载
2023-08-16 20:07:50
1159阅读
点赞
tidyr包
类似于上图成行成列的表数据是干净数据(tidy data),一般每一行表示一条观测记录,每一列表示一个字段(变量) tidyr包是用来操作tidy data的包,主要的功能有数据变形(Reshape Data)分割数据(Split Cells)处理缺失值数据(Handle Missing Values)数据变形(Reshape Data)数据变形(Reshape Data)可以重构数
转载
2023-08-22 11:37:51
252阅读
rpart包可实现回归树。通常分为两步建立回归树:1.生成一棵较大的树 2.通过统计估计删除一些结点来对树进行修剪。
转载
2017-11-26 21:56:00
193阅读
gbm包wiki中对GBRT的定义gbm包在R中的使用基本建模函数参数选择最适的回归树个数例子 gbm包gbm包是梯度提升回归树(GBRT)在R 中的实现。GBRT,全称为Gradient Boosting Regression Tree, 有时也称为GBDT。wiki中对GBRT的定义Gradient boosting is a machine learning technique for r
转载
2023-07-11 15:17:22
239阅读
一、一些函数包大汇总时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面要综述的包主要分为以下几个部分: 1) 多元数据可视化(Visualising multivariate data): 绘图方法: 基本画图函数(如:pairs()、coplot())和lattice包里的画图函数
转载
2023-11-22 15:34:57
371阅读
目录 在 R 中估计 GARCH 参数存在的问题(续)rugarch简单实验rugarch 参数估计的行为极端大样本结论 在 R 中估计 GARCH 参数存在的问题(续)本文承接《在 R 中估计 GARCH 参数存在的问题》在之前的博客《在 R 中估计 GARCH 参数存在的问题》中,Curtis Miller 讨论了 fGarch 包和 tseries 包估计 GARCH(1, 1) 模型
转载
2024-07-25 14:27:45
176阅读
KNN 算法是 Cover 和 Hart 于1968 年提出一种基于统计的学习方法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。等于就是把先数据通过特征空间属性,主要就是计算欧式距离,分为K个相近类别,后面的数据根据自己的属性划分到和自己属性最相似的类别上。我们通过R语言来演示一下近邻分析(KNN),先导入我们的R包和数据,library(class)
转载
2023-11-24 21:21:11
126阅读