#说明 文中‘test’均为模拟名称,原始编码为GKB方式
推荐大家使用Rstudio,界面友好
偏统计
###2.Rstudio基本操作####
#2.1查看R语言自带的数据集####
data()
#直接输入数据集的名称,查看这些数据
CO2
#2.2快捷键####
#Ctrl+Enter:运行光标所在行的代码,也可以用来运行鼠标选中区域的代码
#Ctrl+L:清除控制台中的代码
#Ctrl+shift+S:运行代码集中的所有代码
#Ctrl+1:跳转到代码编辑环境
#Ctrl+2:跳转到控制台
#Ctrl+D:删除代码集中光标所在行的代码
#2.3查看数据集的前6行####
head(CO2)
#查看数据集最后的6行
tail(CO2)
#2.4安装包(可以通过命令或者通过图形界面来安装)####
install.packages("ggplot2")
#加载包
library(ggplot2)
#2.5创建向量和矩阵,以及对它们的基本操作####
rm(list = ls())
x1<-c(1,2,3,4,5,6)
x2<-c(2,4,6,8,10,12)
length(x1)
mode(x1)
class(x1)
C<-rbind(x1,x2);C
cbind(x1,x2) # column vector
Dmat<-cbind(x1,x2)
class(Dmat) #矩阵
Dmat3<-rbind(x1,x2)
class(Dmat3) #matrix
Dframe<-as.data.frame(cbind(x1,x2)) #data.frame
class(Dframe)
Dmat;Dframe #矩阵和数据框格式是不一样的,矩阵是由行列组成的,数据框是由记录和变量组成的
a<-c(1:100) #total :100 numbers
length(a)
a
b <- cbind(a);b #矩阵 是 列优先 排列 的
#2.6常用的函数####
b<-c(1:20)
mean(b)
sum(b)
max(b)
min(b)
sd(b) # standard deviation
#产生向量
1:5
1:5*2
1:5*2+1
#2.8查看内存中已有的对象####
ls()
#删除当前内存中的所有对象
rm(list = ls())
ls()
#2.9访问向量中的元素####
a<-1:5*2-1
a
a[3] # 3th
a[-3] #except 3th
a[2:4] #second to 4th
a[-(2:4)] #except(sec to 4th)
a[1,2,3] #不能这样访问向量中的元素
a[c(1,2,3)] #right way compared with Row127
a[a<=5]
a[a<=3 | a>=7] #not consecutive,use |
a[a>=3 & a<=7] # consecutive ,use &
#2.10 seq()函数和rep()函数,用来产生等差数列的函数,调用示例函数####
example("seq")
demo(lm.glm,package = 'stats',ask = T) #Demonstrations of R Functionality
help(lm.glm)
seq(0, 1, length.out = 11)
seq(stats::rnorm(20))
seq(1, 9, by = 2)
seq(1, 9, by = pi)
seq(1, 6, by = 3)
seq(1.575, 5.125, by = 0.05)
seq(17)
example("rep")
rep(c("a","b","c"),each=4)
rep(c("a","b","c"),4)
#2.11 产生字母序列####
letters[1:30]
#2.12 which()函数####
a<-rnorm(10)
a
which.max(a) #位置
a[which.max(a)]
which(a==a[which.max(a)])
which(a>0)
a[which(a>0)]
#2.13 排序函数####
a<-1:10
a
rev(a) #反转顺序
a<-c(3,1,5,6,9,2,7,4,6,5)
sort(a) # make a from small to big (sorting)
rev(sort(a)) # reverse sort a
#2.14 生成矩阵####
a<-c(1:36)
a1<-matrix(a,nrow = 9,ncol = 4);a1
a2<-matrix(a,nrow = 4,ncol = 9);a2
a3<-matrix(a,nrow = 9,ncol = 4,byrow = TRUE);a3
dim(a1) #dim函数用来查看矩阵的维度
dim(a2)[1] #行
dim(a3)[2] #列
#矩阵运算
##解方程
#解方阵
x1<-c(4,2,-1,1)
x2<-c(3,-1,21,1)
x3<-c(11,3,1,1)
x4<-c(1,1,1,1)
b<-c(2,10,-8,1);b
A<-as.matrix(rbind(x1,x2,x3,x4));A
solve(A,b)
#一元高次。a+bx+cx^2=0, c(a,b,c)
polyroot(c(4,-4,1))
svd(A) #奇异值分解
cor(x1,x2,method = c("spearman"))
options() # 设置小数点位数等paramater
x <- t(A) %*% A #矩阵A的转置成A
x/5
cov(A)
t(a1)
a1+a2
a1+a3
#2.15 改变Rstudio的工作界面(通过tools里面的layout设置完成)####
#2.16 设定工作目录,方便载入数据.将数据存放在设定的目录中,载入数据时就不用指定路径了####
setwd("~")
setwd("~")
#!!or ctrl+5, click ‘ ...’ ,choose object file ,click ‘more’ >>set as working directory
getwd() #用于知道当前工作目录
#2.17 help()函数 ####
help("seq")
?seq
help(package="ggplot2") #获取对整个包的帮助文件
#2.18 example()函数 ####
example("seq")
example("plot")
example("hist")
#搜索自己需要的函数
help.search("multivariate normal")
#2.19 数据框。dataframe####
##数据框就是一个数据表格,一行表示一个记录,一列表示一个变量
x1<-c(1,2,3,4,5,6,7,8,9)
x2<-c(2,4,6,8,10,12,14,16,18)
x <-data.frame(x1,x2);x
x=data.frame('重量'=x1,'运费'=x2);x
#or
names(x) <- c('重量','运费');x
x$"费率" <- x$运费/x$重量 #数据框可以利用已有的变量产生新的变量并存储于当前数据框中
names(x) #查看数据框中的变量
str(x) #查看数据框中数据的定义
#我们在载入数据后,要使用上面的两个函数来检查数据载入是否成功,并检查数据的定义
###2.20 列表 list()####
x1<-1 #单个数字,其实是一个只有一个元素的一维向量
x2<-c(1,2,3,4) #有四个元素的一维向量
x3<-c("a","bc","d") #字符向量
x4<-matrix(1:36,nrow = 9,ncol = 4) #矩阵,vector
x5<-data.frame(a=c(1,2,3,4),b=c(2,3,4,5),c=c(3,4,5,6))
list_01<-list(x1=x1,x2=x2,x3=x3,x4=x4,x5=x5) #产生一个数据框
list_01$x3
###3.数据导入与导出####
#3.1 先把R内置的CO2数据集导出,然后再练习导入操作####
write.table(CO2,file = "二氧化碳.txt")
write.csv(CO2,file = "二氧化碳.csv")
#3.2 导入逗号分割的文本文件####
read.table(file = "二氧化碳.txt",header = TRUE)
#最好给指定一个名称#
carbon<-read.table(file = "二氧化碳.txt",header = TRUE)
#3.3 导入csv格式的数据####
carbon_csv<-read.csv(file = "二氧化碳.csv",header = TRUE)
#3.4 通过剪贴板读入数据并写入文件####
setwd("~")
clipboard<-read.table("clipboard",header = TRUE) # often-used!!
clipboard
write.table(clipboard,file = "clipboard.txt")
#3.5 导入空格分割的文本文件数据####
setwd("~")
data <- CO2
write.table(data,'test.txt')
co2<-read.table(file = "test.txt",header = TRUE)
names(co2);str(co2)
#3.5.1 读取数据框中的变量####
#1)很多函数中有data参数,可以指定数据框,然后在函数内部直接访问数据框中的变量
co2$conc<-as.factor(co2$conc) #variable must be numeric
boxplot(uptake~conc,data = co2) #boxplot(y ~ grp) ,grp usually a factor
#2)使用美元符号$
boxplot(co2$uptake~co2$conc)
#3)使用attach函数,不推荐使用,很容易出错,特别是在同一个R代码集中写很多不同程序的时候
attach(co2)
boxplot(co2~year)
detach(co2)
###3.6 数据子集操作####
#1)先明确分类变量有几个类别
unique(co2$Plant)
#2)选择数据子集
co2_15<-co2[co2$Plant=='Mc1',]
#3)多个条件用逻辑连接符号进行连接
co2_1501<-co2[co2$Plant=='Mc3'&co2$uptake==17.9,]
co2_1501
#4)排序操作
#,这个排序可能没有实际意义,这里只是演示操作的方便
orderuptake<-co2[order(co2$uptake),] #对行的操作
View(orderuptake)
#5)合并数据子集
#(1)先读入数据
co2<-read.table(file = "test.txt",header = TRUE)
#or
co2<-read.table("clipboard",header = TRUE) #通过剪贴板读入数据
#(2)然后进行合并
#假设plant是人名,我们要将另一个带有人名的数据合并
name <- co2$Plant;name
x <- c(rnorm(84,0,1)) #生成84个随机正态数列
co3 <- data.frame(name,x)
tem <- merge(co2,co3,by.x = 'Plant',by.y = 'name' )
#3.7 读入Excel格式的文件####
#install.packages("RODBC") #注意有些包只在特定版本中能够运行,更新问题
#library(RODBC)
#xls<-odbcConnectExcel("mvstats4.xls")
co2<-read.table("clipboard",header = TRUE) #有行名列名
library("readxl")
co3 <- read_excel('test.xls') #只有行名 或者 只有列名