大家好,我是 Lemon。
有不少读者在询问如何入门Python、如何入门Python数据分析,之前跟大家分享了两本零基础入门Python的书籍:《Python编程从入门到实践》 和《笨办法学Python3》。
今天来给大家分享一本Python数据分析入门的书籍,书名是《Python数据分析基础》。
本书面向的读者
按照书中的介绍:
本书面向的读者主要是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。
Lemon觉得这个范畴还是很清晰的。当然,Lemon阅读完这本书之后,觉得范围也可以适当的拓宽些,包括经常处理电子表格的、需要定期生成报表的、有一定的数据可视化需求的、以及需要对数据进行统计性描述的,都可以参考下本书的部分内容。
对于这点,Lemon也是深有感触。前些年,Lemon还没有开始学Python ,当时管理许多的项目,用Excel处理数据感觉有些力不从心。于是,开始寻找解决方案,找了一圈,最后发现微软的Access,用SQL语句撸了一个小型的项目管理工具。现在看来,如果当时会Python,会方便很多。
书中的Python环境
书中的代码使用的Python版本是Python 3.5版,本书作者在Windows平台对代码进行测试的,如果你电脑上的Python版本是3.5以及之上,应该是可以运行的。
由于Python是跨平台的,因此,Windows、Linux以及MacOS系统应该都没问题。
对用Python安装,书中推荐安装Anaconda ,Lemon一般也是直接安装 Anaconda,主要是比较省事。
关于Python环境的安装,这个还是需要自己去弄。不同的电脑环境,有时候会出现一些小小的问题,这个主要还是需要自己通过搜索来解决。
书中的代码,原书作者已经发布其Github上,大家可以免费去获取,地址如下:
https://github.com/cbrownley/foundations-for-analytics-with-python
数据文件处理
书中花了比较大的篇幅来讲解关于数据文件的处理,主要包括CSV文件、Excel文件以及数据库。
对于数据分析入门而言,可能遇到比较多的文件类型还是Excel和CSV,所以书中对这两类介绍也是比较多。
书中介绍了用Python脚本、内置模块、第三方库等途径来操作这两类文件,涉及到内置CSV模块、Xlrd、Xlwt等。对于需要读取数据,尤其是需要写入数据,用这些工具还是挺方便的。
如果只是读取数据,然后进行数据清洗等处理,Lemon一般喜欢用Pandas 。
此外,对于数据库,书中也介绍了内置的Sqlite3模块,以及流行的数据库MySQL 。
数据可视化
主要涉及四个可视化库,分别是Matplotlib
、Pandas
、ggplot
和seaborn
。
除了ggplot
,其余三个, Lemon也是经常使用的。
下面分享一个随书的案例:
运行后效果如下:
关于Matplotlib,前不久Lemon整理了一份100个项目入门Matplotlib的内容,有兴趣的同学可以前往查看:
100个案例,Matplotlib从入门到大神
自动运行脚本
Lemon觉得还有一个内容估计大家是感兴趣的,那就是使用Python来按计划自动运行脚本,由于是在商业环境中,有一些需要定期上报的内容,比如日报、周报、月报、季报,年报等(特别烦!!!)。
前不久,阿里取消周报,都能上热搜,可见这些报表多么重要,又是多么招人厌!
如果你用Python来自动运行一些格式高度一致的内容,那自然会省事很多。别人在埋头苦干的时候,估计你就有功夫摸鱼啦。
小结
在本书的封面,给本书的定位是“零基础经验也可学会用最火的Python语言进行数据分析”,如果你想用Python来进行数据分析,本书可以作为初级参考书来使用。
如果你觉得这本书不错,可以去购买一本,仔细阅读下。