随着温度渐渐变高,开学的时间也一推再推,然而也就只有deadline在那里从来都不曾走远。许多同学也因为疫情被迫开始宅家写论文做科研。

有的受困于家里的小屏幕;

有的每天用Zoom和导师聊进度,和组员分享文献;

还有的利用假期充电学习新的数据分析工具,入门了Python真香了Power BI。


“数据分析”这一部分,作为论文中支持我们理论结果的重中之重,往往也是最花费时间和精力的一个环节。 而数据分析的第一步——选择一个合适的工具,对之后处理数据的质量和效率至关重要。

在学校中我们往往会学习并掌握两到三个工具,在处理数据时,常常会不知道如何根据数据类型和数据分析的目的来选择最合适的工具。在可视化数据时,图表也会出现过于局限单一的问题。

而数据分析工具不停的更新换代,从一开始最传统的Excel,到后来的“学术派”Stata和SPSS,再到全民学习的Python,和最近风头逐渐盖过Python的SQL。似乎总会有一个更好用的工具等着我们发现。

接下来为大家简单比较一下目前最热门的集中数据分析工具:

Python

作为“粉丝基础”最为雄厚的Python,它以其简洁人性化的语法和接近自然语言的设计,成为了对初学者最为友好的语言之一。


Python不仅在语法上拥有着相当高效的编码效率,丰富的标准库和第三方库也让它能广泛的适应于各种情境,包括数据抓取、清洗、分析、可视化、网页制作、深度学习等等,闲暇时候用它来薅个羊毛、表个白,甚至优化一下自己的电影库也是手到擒来。

R语言

与Python不同,R语言起初是一种专门用作统计领域的语言,虽然现在它的用途变得更加广泛,但最初更多的是专门针对于研究和学术的领域。因此与Python相比,用R进行统计建模、探索性分析等专业的统计处理会更加的高效。


同时,R语言的制图也十分精美,它针对不同行业领域的可视化库,让它在这一方面拥有更强大的优势。