R语言
赋值:<- e.g. x <- rnorm(5)
注释:#
输入输出:
1) 输入:source(“filename.R”)
2) 文本输出:sink(“filename”),参数append=TRUE将文本追加到文件后而不覆盖原文件,参数split=TRUE将输出同事发送到屏幕和文件;sink()输出到屏幕。
3) 图形输出:bmp() jpeg() pdf() png() postscript() svg() win.metafile()
批处理命令:
R CMD BATCH options infile outfile
安装包:
Install.packages(“package_name”)
函数:
1) c(): 以向量形式输入数据,e.g. c(1,3,5,7)
2) mean(): 均值
3) sd(): 标准差
4) cor(): 相关度
5) runif(n): 生成包含n个均匀分布随机变量的向量
6) plot(): 以图形展示变量间关系
7) demo(): 图形示例
8) ?: 查看函数功能
9) setwd(): 设置当前工作目录,使用正斜杠/或双反斜杠\\
10) dir.create(): 创建一个新目录
11) load(“.RData”): 从上次会话结束的地方重新开始,且保证各个项目之间的数据和设置互不干扰
数据结构
1) 向量:c(); a[3]表示取向量a中的第三个元素,a[c(2,3)]表示取向量a中的第二和第三个元素,a[2:6]表示取向量a中的第二至第六个元素。
2) 数组:array(vector, dimensions, dimnames),vector是一个向量;dimensions为数值型向量,代表各个维度下标的最大值,e.g. c(2,3,4)代表2×3×4的数组,dimnames为各维度的名称标签。
3) 矩阵:matrix(vector,nrow=num_of_rows,ncol=num_of_columns,
byrow=logical_value,dimnames=list(char_vector_rownames,char_vector_colnames)),其中byrow代表按行填充(TRUE)或按列填充(FALSE),默认按列填充,dimnames代表行名和列名。X[i,]取第i行;X[,j]取第j列;X[i,j]取第i行第j列对应元素。
4) 数据框:不同的列可以为不同的数据类型,可以使用data.frame(col1, col2, col3……)创建。每一列代表一个变量,因此使用[1:2]取得的是第一列至第二列,也可用列名取数据,也可用dataframe$colname取数据。
5) 因子:名义型变量(没有顺序之分的类别变量);有序型变量(有顺序关系但没有数量关系,无法知道变量之间差多少);连续型变量(有顺序关系和数量关系,为某个范围内的任意值,可知道变量间差多少)
6) 列表:一些对象的有序集合,对象之间无需保证维度一致性,对象间相互独立。
7)
attach()配合detach()使得其之间的语句使用的数据对象均为指定的dataframe(书P25)。类似功能的函数with(),使用方法为with(dataframe, {sentence1sentence2 sentence3……}),不过with中生成的变量为局部变量,只在with语句中有效,若要形成全局变量则使用<<-作为赋值符号。
将值赋值给某个向量、矩阵、数组或列表中一个不存在的元素时,R将自动扩展这个数据结构以容纳新值。如x<- c(8,6,4) x[7]<-10,则x为8 6 4 NA NA NA 10.
R中下标从1开始。
变量无法声明。
数据输入:
1) 键盘输入
文本编辑器:
mydata <- edit(mydata)等同于fix(mydata)
2)从带分隔符的文本文件导入数据
Mydataframe <- read.table(file,options)