利用python进行数据分析epub 利用Python进行数据分析心得

转载

mob64ca13faa4e6 2024-02-28 16:01:50

文章标签 利用python进行数据分析epub python数据分析心得 python 数据数组 文章分类 Python 后端开发

关于《利用python进行数据分析》心得

今天终于把关于python的第二本书完全的读完，并且做了20mb左右的笔记。算上培训班，也算是正儿八经的在python这门最优雅的语言上入门了。加上值几天边看书，边用python对600多mb的数据进行清洗，并且发现一部分小错误，我在此写下部分心得以便于供各位同学，同行共勉。我将围绕本书的库，环境和问题进行讨论。

首先是库，本书围绕三个库进行讨论——numpy，pandas和matplotlib。Numpy是个模仿R的库，对python的独特的数组进行向量操作——将数组作为矩阵进行切片，换行，变换，转置，计算等一系列操作。Numpy的强大之处建立在python的天生优势——一切皆对象的基础之上，这也正是numpy的强大——一切皆数组（矩阵）。所以numpy是未来python做SVD，SVM等机械学习的基础——变量矩阵化。

第二大库——pandas，pandas是基于numpy的一个超级库，这个库不仅完成了numpy的所有基本功能，并且更进一步，矩阵数据框化（DataFrame）。相信熟悉R语言和SAS的朋友对这个概念并不陌生，因为我们几乎所有的数据都是经过数据框进行处理的。数据框的最大特点就是——index（索引）和columns（字段）。也就是pandas所有的操作都是围绕这两个东西进行的。包括增删改，补充，添加等等。也就是利用pandas你能干所有excel可以干的事情，真正意义上的数据管理和数据处理。

第三大库——matplotlib，python的标志性画图库，然而这个库并没有什么真正意义上的价值，笔者发现，通过python处理过的数据直接经过R作出图像反而更快，更有可视感。另外，真正画图的库使seaborn（因为可变化多）。

第二，是python做数据分析的环境和编辑器。我知道很多python开发的朋友喜欢用pycharm，但是不好意思，笔者实际操作和阅读，以及真实案例来看，anaconda才是真正意义上的python数据分析和挖掘的操作器（可以分段提交代码）。

书的环境是2.3版本，所以该书并没有对中文文本进行描述，因为逼人要清理大量的企业信息，这些数据都是中文，在一开始，我被这个问题很困惑，但是后来随着研究，我也找到了解决方法：

1. 数据挖掘，建议用3，不要用2！3对中文支持更好，并且更加聪明！

2. 用spyber，尽量不要用jupyter！因为spyber可以帮你保存你缓存的数据！！

3. 请阅读pandas的最新文档，该书成书时间在2013年，所以很多信息都过时了。

如果你喜欢用python2，那么你在操作数据库时候，所有输出数据都是元组格式，不过不要紧，你将格式改为数据框就可以避免，第二，请你保证你的编辑器的格式和数据库或者对象一致。

最后，是本书的问题。本书由于成书年代久，所以很多操作已经过时，笔者发现了以下几个小错误。

1. 对数据库的操作现在直接用pd.read_sql就可以，不需要再再入库

2. oi类在pandas已经被转移成一个新库——pandas-dataread，请自行下载。

3. 本书没有对描述性统计分析进行跟深入叙述，你要学更多，请阅读scipy文档。

4. 由于本书的版本问题，所以本书的最后两章没有任何意义。

以上就是笔者对这本书的概述和心得，总的来说，此书的确值得一读，特别是奥巴马选举案例把pandas的索引操作展示的玲离尽致，但是金融案例你看看就好了，没有任何参考价值。

同时，在对比了python和excel对数据清洗上的区别后，我可以清楚的看到，面对200mb以下的小数据，excel是无敌的，并且超越一切SAS，R和JMP之流。完美的图形化和自能化是excel最大的优势，但是当数据超过200mb之时，请自觉使用python（不要用python操作200mb以下数据，杀鸡焉用牛刀）。

同时对比了运算时间，R最快，Python比较慢（C语言的呈现毕竟牛逼），但是R的可读性很差，python在神一样的anaconda编辑器之下，可读性和展示性非常好。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。