2022年8月9日
重新复习了前面所学习的一些内容,今天可以说是为了走得更远和更深入做准备。今天的日记应该没有什么格式可谈,就是一些只言片语,记录自己一周多以来学习的一些体会。
首先,关于R语言的强大用途和功能我基本有了一个比较详细的了解,初步熟悉了R语言的一些结构范式,明白了R语言的主要强大之处在于各种神通广大的包(packages).但是受限于自身的编程能力,我还没有触摸到R语言更深层次的编程逻辑、算法逻辑,所以学习之路依旧任重道远。说到这里,我又不得不说学习一门语言的重要性,编程语法知识基础、背后的算法逻辑才是最令人头疼的地方,作为一名文科生,我知道只是一条充满荆棘并进一步学习算法,祝我好运吧。
接下来是,关于今天学习的总结。总结起来主要分为数据处理的流程、R语言的几点理解、数据结构和支持的其他数据格式,以及基本数据管理等内容。
R语言在数据分析和可视化方面的能力突出,一般处理数据的流程是:
💡 导入数据-数据准备、探索和清理-拟合一个统计模型-评估拟合结果/模型交叉验证-使用模型进行数据预测-形成报告
R语言的数据结构可以分为向量、矩阵、数组、列表、数据框等5种。
R语言不提供多行注释或者块注释
R语言可以提供导入的数据源:
统计软件:SAS,SPSS,STATA
文本文件:ASCLL,XML,Web抓取数据
数据库管理系统:SQL,MySQL,Oracle,Access
其他:Excel,netCFD,HDF5
键盘键入:可以使用edit()函数进行交互式键入,也可以通过编程方式输入
R语言在基本数据管理方面:
创建新变量、变量重编码、变量重命名、缺失值处理、数据排序、日期转换(前面有一篇文章说过了)
其中缺失值处理值得注意一下:
#检测缺失值
>is.na(x)
#利用重编码将某些值指定为缺失值
>leadership$age[leadership$age==99]<-NA
#在分析中排除缺失值
>y<-sum(x.na.rm=TRUE)
>na.omitl(leadership$age)#删除含有缺失值的行