目录引言1、数据构造2、筛选2.1 dplyr::filter基本语法:案例2.2 sqldf:sqldf关键字select、from、where、where3、排序3.1 dplyr::arrange3.2 sqldf:sqldf关键字:order by4、选择列4.1dplyr::select4.2 sqldf::select5、创建新的变量5.1 dplyr::mutate5.2 sqld
转载
2023-08-18 14:48:10
139阅读
很多数据一拿来并不是整齐的,不适合让计算机来作数据分析,因此需要对数据进行各种处理,来让数据变得“tidy”。 下面,基于R语言的tidyr包的一些函数来对原始数据进行整理。 *(以下所有操作依照The University of Auckland课程自己整理,均为原创)一、需要安装的工具集tidyversetidyverse是集合了dplyr,tidyr,ggplot2,stringr等R语言包
转载
2023-08-18 15:52:52
248阅读
小编最近在用业余时间学习R的一个可视化工具Rshiny,在这个过程当中,接触到R中的一个数据包叫DT。在自学查资料时,发现网上对这个数据包的介绍十分有限。所以,小编在这里现学现卖,写一篇小文给大家介绍一下这个R包。鉴于小编水平有限,有任何错误和纰漏,还欢迎各位大神指正。那好,我们就开始吧!~有人可能会诧异,一个数据包而已嘛,用得着特别介绍吗?小编最开始也是这么想的……然而当我找到官方网页,打开这个
转载
2023-12-14 10:27:42
137阅读
#安装R语言R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装。在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl/tk包(少了这个没法安装sqldf)sudo yum install fonts-chinese tcl tcl-devel tclx tk tk-devel -y安装中文字体后重新加载 service xfs reload (不过在
转载
2024-02-28 10:51:17
71阅读
前言 最近想试一下捣腾一个 R 包出来,故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇,以及 Hadley 大神(ggplot2 devtools 等一系列包的作者)的 教程。但是前者有一些过时,后者是全英文的,所以我这里记录一下比较简单的过程,给读者们一个参考思路。如果你有一些 R 程序,想塞到去一个自创的 R 包中,那么这篇文章就可能是你想要的。为了方
转载
2023-09-02 15:12:54
589阅读
R包介绍及开发(初学者基础详解)一、R包概述1.1 R包简介1.2 R包下载1.3 R包安装1.4 R包使用二、创建R包2.1 R包架构及内容2.2 R包开发的环境配置2.2.1 R包开发准备2.2.2 R包构建工具准备2.2.2.1 R包开发工具包 | devtools包2.2.2.2 工具集 | RTools2.3 R包创建流程2.3.1 命名 | 创建R包2.3.1.1 R包命名规则2.3
R语言数据处理学习记录–使用linkET包完成mental test注:本文仅作为自己的学习记录以备复习查阅一 简单介绍一下这个包依旧是来自于GitHub上,作者给出的介绍:linkET的目标是简单而直接地可视化基于’ ggplot2 '的矩阵热图。其实作者已经给出了非常详细的包的使用方法,从Data processing到后面各种图形的绘制都有详细的代码和图片展示,所以这里just给一些无法很方
转载
2023-11-16 19:33:58
530阅读
线性优化简介优化是一种为所有可能的解决方案找到给定问题的最佳解决方案的技术。优化使用严格的数学模型来找出给定问题的最有效解决方案。要从优化问题开始,首先确定目标非常重要。目标是绩效的量化衡量。例如:最大化利润,最小化时间,最小化成本,最大化销售。优化问题可分为两组线性规划(LP):它也被称为线性优化,在这个问题中,目标是在数学模型中获得最佳结果,其中目标和所有约束是决策变量的线性函数。二次规划(Q
转载
2023-08-08 10:55:31
172阅读
介绍Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。glmnet算法采用循环坐标下降法,它连续优化每个参数上的目标函数并与其他参数固定,并反复循环直至收敛。该软件包还利用强
转载
2024-04-22 23:11:00
92阅读
无经验尝试安装Hmisc的目录1. 探索中,想办法2. 更新R的版本3. 将新版R链接到Rstudio4.大功告成5. 总结 1. 探索中,想办法既然要安装Hmisc,我先看一下电脑里有没有这个包啊> library(Hmisc)
载入需要的程辑包:lattice
载入需要的程辑包:survival
载入需要的程辑包:Formula
Error: 找不到‘Hmisc’所需要的程辑包‘ggp
转载
2023-08-16 20:07:50
1159阅读
点赞
tidyr包
类似于上图成行成列的表数据是干净数据(tidy data),一般每一行表示一条观测记录,每一列表示一个字段(变量) tidyr包是用来操作tidy data的包,主要的功能有数据变形(Reshape Data)分割数据(Split Cells)处理缺失值数据(Handle Missing Values)数据变形(Reshape Data)数据变形(Reshape Data)可以重构数
转载
2023-08-22 11:37:51
252阅读
rpart包可实现回归树。通常分为两步建立回归树:1.生成一棵较大的树 2.通过统计估计删除一些结点来对树进行修剪。
转载
2017-11-26 21:56:00
193阅读
gbm包wiki中对GBRT的定义gbm包在R中的使用基本建模函数参数选择最适的回归树个数例子 gbm包gbm包是梯度提升回归树(GBRT)在R 中的实现。GBRT,全称为Gradient Boosting Regression Tree, 有时也称为GBDT。wiki中对GBRT的定义Gradient boosting is a machine learning technique for r
转载
2023-07-11 15:17:22
239阅读
一、一些函数包大汇总时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面要综述的包主要分为以下几个部分: 1) 多元数据可视化(Visualising multivariate data): 绘图方法: 基本画图函数(如:pairs()、coplot())和lattice包里的画图函数
转载
2023-11-22 15:34:57
371阅读
ggplot2的优点 ggplot2可以让作图者根据ggplot2的作图语法来控制一下作图中的重要的因素,用起来可以说神通广大 ggplot2的主要元素: 1.data:数据 2,Aesthetic mapping:颜色、形状、点的大小与线的粗细 3,Statistical transformations:将数据做统计转换,比如概率密度,计数等等 4,Coordinate system:坐标轴的调
转载
2024-04-14 21:04:35
56阅读
目录 在 R 中估计 GARCH 参数存在的问题(续)rugarch简单实验rugarch 参数估计的行为极端大样本结论 在 R 中估计 GARCH 参数存在的问题(续)本文承接《在 R 中估计 GARCH 参数存在的问题》在之前的博客《在 R 中估计 GARCH 参数存在的问题》中,Curtis Miller 讨论了 fGarch 包和 tseries 包估计 GARCH(1, 1) 模型
转载
2024-07-25 14:27:45
176阅读
KNN 算法是 Cover 和 Hart 于1968 年提出一种基于统计的学习方法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。等于就是把先数据通过特征空间属性,主要就是计算欧式距离,分为K个相近类别,后面的数据根据自己的属性划分到和自己属性最相似的类别上。我们通过R语言来演示一下近邻分析(KNN),先导入我们的R包和数据,library(class)
转载
2023-11-24 21:21:11
126阅读
--------仅用于个人学习知识整理和sas/R语言/python代码整理--------文章使用数据都为脱敏模拟数据简介radiant是r的包,基于r shiny开发,可以对数据进行简单的分析,进阶可以进行统计建模分析,并支持报表输出radiant的开发者文档地址:radiant-rstats/docs2 数据导入及启动2.1 导入方法1(推荐使用这个)radiant本质是r语言包,所以可以先
转载
2024-08-30 16:45:10
143阅读
上一篇博客(R中两种常用并行方法——1. parallel)中已经介绍了R中常见的一种并行包:parallel,其有着简单便捷等优势,其实缺点也是非常明显,就是很不稳定。很多时候我们将大量的计算任务挂到服务器上进行运行时,更看重的是其稳定性。这时就要介绍R中的另一个并行利器——snowfall,这也是在平时做模拟时用的最多的一种方法。针对上篇中的简单例子首先是一个最简单的并行的例子,这个例子不需要
转载
2023-11-29 09:55:27
112阅读
DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。因此会发现,用两者处理同一组数据,最后在相同阈值下筛选出的大部分基因都是一样的,但是有一部分不同应该是由于其估计离散度的不同方法所导致的。 ### DESeq2
转载
2023-12-11 12:46:12
204阅读