Python在1991年首次发布,Python2.0于2000年发布,8年后Python3.0发布。根据Stack Overflow在2017年的调查显示,近45%的数据科学家使用Python作为主要的编程语言,Python每一次的进步都是它成为数据分析主流工具的重要因素。

近年来,Python的被使用性越来越高,尤其是Jupyter Notebook备受大家喜爱。根据Ben Frederickson进行的一项调查显示,Jupyter Notebook在Github上的月活跃用户(MAU)的占比在2015年后大幅上升。

可以看到,在CDA对数据分析人才等级的划分中,基本上对Python软件的应用都有一定的要求。


既然Python这么受欢迎,那我们就有一个问题了,Python一个开源的软件,到底可以做什么呢?

Python具有丰富和强大的库,其语言简洁、优雅,有时候可以用几句话就能表达出C语言几千行、Java几百行的代码。

Python可以做的事情有很多:

1、web开发、

2、数据分析、

3、数据挖掘、

4、机器学习、

5、爬虫等等

包括它的可视化功能也是和R可以媲美的。

在我看来,Python近几年受追捧的一部分原因和数据分析行业的爆发有着密不可分的关系,随着各大中小型企业对数据的重视程度的增加,数据分析师需求的大幅上涨,而Python作为数据分析界最容易入门上手并且做数据分析首选的的分析工具,需求也相应有了暴增。

Python中有两个最基础的包:Pandas和Numpy。

Pandas是Python中一种数据分析的包,而Numpy是一个可以借助Python实现科学计算的包,可以计算和储存大型矩阵。所以,用Python来做数据分析基本需求都可以被实现,这也是Python可以广泛运用到数据分析中的原因。

接下来我要提到的就是Python第一次引起我兴趣的一个点——爬虫,我是通过感到这个名词有趣然后去了解学习Python从而感到Python的有趣之处。爬虫就是爬取网页上我们看到的信息,通过编写语句、整理得到我们想要的数据,进而去做一些其他的数据分析,当然,这一切都要建立在合法合理的基础上。下面我给大家分析一个我自己爬虫的小练习。


爬取到结果整理之后如下(输出评分排名前十的电影):

使用上面的代码,我爬取了豆瓣top250电影的影名、类型、国家、时间、简介、评论等相关信息并最终输出为excel表格,这将有助于你剧荒的时候更好的选择高质量的电影。以上代码仅仅是个人练习所操作,有更简洁的语言欢迎大家一起交流。Python真的是一个神奇的工具!