项目概述
在此项目中,你将使用 R 并运用探索性数据分析来探索一个变量或多个变量之间的关系,以及在一个选定的数据集中探索分布、异常值和反常现象。
为什么进行这个项目?
探索性数据分析(EDA)是在应用正式的、严格的统计分析之前,对数据的特征和关系的进行数字的和图表的测试。
EDA可以引起人们的洞察力,可以反映其他问题,并最终形成预测模型。这是对不良数据的一个重要的“防线”,也是一个可以注意到你对数据集的假设或直觉是否被正确的机会。
我会学到什么?
完成此项目后,你将:
了解变量的分布并检查异常和异常值
通过使用适当的图表如散点图、直方图、条形图和箱图学会量化和可视化数据集的各个变量
在构建预测模型之前,探究变量来辨别数据集中最重要的变量和关系,计算他们的相关性,并调查条件均值
学习有用的方法和可视化手段来检查多个变量之间的关系,例如重新构造数据框架和使用通过颜色和形状来发现更多信息
为什么这对我的职业发展非常重要?
为什么要学习数据分析?如果你想找一个拥有大量需求的职业,你需要为一些越来越常见以及廉价的东西提供稀缺且附带额外价值的服务。那么,什么东西正变得越来越常见和廉价?数据。那么,什么是为数据提供稀缺且附带额外价值的服务?分析。
— Hal Varian, 加州大学伯克利分校,Google 首席经济学家
简介
对于这个项目,你将自行完成探索性数据分析,并且创建一个 RMD 文件,以探索你选择的数据集的变量、结构、模式、异常现象和潜在关系。由于你提出问题、创建可视化并且探索数据,因此你将深刻了解整个分析过程。
此项目是开放式的,正确答案不止一个。正如 John Tukey 所说:“某些数据和对答案的极度渴望组合起来并不能保证可以从一组给定的数据中获得合理的答案。”我们希望你提出有趣的数据问题,并且给自己一个探索的机会。我们将提供一些数据集供你探索,但你也可以选择一个完全不同的数据集。需要注意的是,找出自己的数据集,然后将它整理为 R 可以读取的形式是费时费力的。你可能要多花一天、一周甚至是几个月的时间才能完成你的项目。因此,仅在你确实具备编程和数据整理技能时才找出并整理数据集。
现在,让我们来看看项目细节!
第一步 - 选择数据集
首先,你需要从数据集选项文档中选择一个数据集。你应根据以前的编程和数据处理经验来选择数据集。你选择的数据集不会增加或减小你通过最终项目考核的几率。通常,整洁的数据集更容易使用,因为每个变量就是一列,每行就是一个观测值,而且无需整理数据。我们在下方提供的指导能帮助你选择数据集。估算的时间包含了阅读所有项目说明和评估准则、进行分析和提交最终项目的时间。
第二步 - 确保项目的条理性
你最终会提交项目,并且与你的朋友、家人和雇主分享项目。在开始之前请确保项目的条理性。我们建议你在桌面上创建一个单独的文件夹,该文件夹最终将包含:
RMD 文件,它包含分析报告、最终图形和摘要,以及依次写下的反思
HTML 文件(通过你的 RMD 文件拼合而成)
你使用的数据集(仅在你用自己的数据集时才需提交)
第三步 - 探索数据
这部分很有趣,开始探索你的数据吧!在探索数据时,将你的想法记录在 RMD 文件中。请参考我们提供的示例项目。你的报告应类似此项目!
第四步 - 记录你的分析
在你提交的 RMD 文件中记录探索和分析工作。该文件应以 markdown 的形式进行格式化,并应依次包含:
以意识流方式对数据进行的分析和探索。
a. 应通过标题和文本组织你的想法,以及反映你在探索数据时的分析工作。
b. 该分析中的图形无需通过标签、单位和标题来修饰;这些图形是探索性的(临时应急用的)。但是,它们应具有合适的类型,并能有效传递你从中搜集的信息。
c. 你可以在相同的 R 区块中迭代图形,但你无需在分析中说明每一次的图形迭代。
“最终图形和摘要”结尾部分
a. 你将从分析报告中选择三个图形来进行修饰,并在这一部分中进行分享。三个图形应该呈现不同的趋势,并且应该由合适的标签、单位和标题来修饰(更多信息,请参见项目评估准则)。
称为“反思”的最终部分
a. 在该部分中,应通过几句话说明你付出的努力、取得的成功和未来如何探索数据集的想法(更多信息,请参见项目评估准则)。
第五步 - 拼合 RMD 文件
你拼合的 RMD 文件不应该是一个很长的 R 代码块。它应包含文本和穿插于其中的图形,目的是使阅读该文件的读者能够深入了解你在探索数据时思考的问题。
第六步 - 记录数据(如果你选择了自己的数据集)
你提交的数据集(仅当你选择了自己的数据集时)应包含一个文本文件,该文件类似于 R 文档中那些描述数据源的文件;还应包含对数据集中的变量的解释(变量的定义、单位、分类变量的级别,以及数据生成过程,例如在可能时是如何收集数据的)。