Mac安装使用R教程(从零开始)

  • 第一章 Mac安装R
  • 1.1 前言
  • 1.2 过程记录
  • 1.3 参考
  • 第二章 R的基本使用(持续更新中)
  • 2.1 直方图
  • 2.2 线图
  • 2.3 整理数据
  • 2.4 导入数据
  • 2.5导出文件
  • 2.6 参考

第二章 R的使用

2.1 直方图

  1. 绘制直方图 hist(data, breaks)data:表示要绘制的数据;
    breaks:告诉R如何分组,指定格式有多种;

第一种,给定一个向量,指出不同的断点,如hist(data,breaks=c(0.5, 1.5, 2.5, 3.5))
第二种,指定分隔好的区间的个数,会根据区间个数自动去计算区>间的大小,如上文 所示。

  1. freq:逻辑值,默认值为TRUE , y轴显示的是每个区间内的频数,FALSE, 代表显示的是频率(= 频数/ 总数),如hist(data, breaks = 50, freq = F)probability: 逻辑值,和 freq 参数的作用正好相反,TRUE 代表频率, FALSE 代表频数
  2. 保存直方图
> png("路径名/图片名.png")
> hist(data, breaks=50, ...)
> dev.off()

2.2 线图

  1. 绘制线图
    abline(a=NULL, b=NULL, h = NULL, v=NULL, reg=NULL, coef=NULL, untf=FALSE, ol="", ...)参数解释:
    参数a表示绘制直线的截距;
    参数b表示绘制直线的斜率;
    参数h表示绘制水平线时的纵轴值;
    参数v表示绘制垂直线时的横轴值;
    参数reg表示一个回归对象名称,即回归直线的名称;
    参数coef是一个二维向量,给出了截距和斜率;
    参数untf是一个逻辑值,表示是否对数变换,若为TRUE且坐标中至少一个进行了对数变换,则会画出未对数变换前的曲线。
    示例;
    在散点图中画出两条直线myLmSmally=0.8+0.9x和myLmBigy=7.8+0.3x,输入如下代码:
> plot(employees$requested[employees$negotiated == TRUE],  
employees$received[employees$negotiated==TRUE])  
> abline(myLmSmall,col="blue")  
> abline(myLmBig,col="red")

hist R语言 频率 r语言hist函数各参数的含义_hist R语言 频率

图2-1.线图 2. 保存线图

```r
	# 和直方图一样  
	> png("~/Desktop/Study/DataAnalysis/hfda_data/ch11_predict.png")  
	> plot(employees$requested[employees$negotiated == TRUE],  
	employees$received[employees$negotiated==TRUE])  
	> abline(myLmSmall,col="blue")
	> abline(myLmBig,col="red")
	> dev.off()
	```

2.3 整理数据

       可以利用正则表达式在R中指定复杂的模式以便匹配和替换文本字符串,从而进行数据清理。常用正则表达式指令如下:

  1. 替换字符串
    新列名 <- sub("被替换字符串(正则表达式模式)","替换字符串",表名$列名)
  2. 删除某些导致重复的列
    表名$列名 <- NULL
  3. 删除重复名称
    列名 <- Unique(列名) 一列当中有些名称发生重复,利用Unique()进行删除,重复名称所在的行也会被删除。

注意
       在删除重复数据时可以先通过主键对数据进行排序,进一步分析数据重复的原因,然后进行列删除及重复名称删除。

2.4 导入数据

  1. 导入csv
    read.csv(file, header, sep = ",",quote="\"", dec=".", fill,comment.char="")参数解释:
    参数flie表示导入文件,为文件绝对或相对路径;
    参数header表示是否在文件第一行显示标题,默认为TRUE;
    参数seq指定分隔符,默认为空格;参数quote表示引号,默认为双引号;
    参数dec表示小数点,默认为.
    参数fill表示是否填充,即遇到行不相等的情况,空白域自动添加既定值,默认填充;
    参数comment.char指定用于表示注释的引导符号。
    上述参数除了file外,一般设定为默认就可以。
  2. 导入其它表格
    read.table(file, header = FALSE, sep ="", quote = "\"'", dec = ".", skip = 0, strip.white = FALSE, blank.lines.skip =TRUE, comment.char = "#") 各参数含义和read.csv()差不多。

2.5 导出文件

  1. 保存为R文件
    save.image("路径名/文件名.RData")        保存为R文件可以保存之前运行时产生的变量数据等,打开之后可以继续上次的运行结果进行操作。
  2. 保存为txt文件
           直接在界面选择file -> save as就可以将代码保存为txt格式,方便详细查看代码,但不会保存之前产生的变量数据,也无法用R打开。