如何提升数据分析能力?Peter Nistrup 根据自身经验列出了 7 个有用工具。本文列举了一些提升或加速日常数据分析工作的技巧,包括:1. Pandas Profiling2. 使用 Cufflinks 和 Plotly 绘制 Pandas 数据3. IPython 魔术命令4. Jupyter 中的格式编排5. Jupyter 快捷键6. 在 Jupyter(或 IPython)中使一个单元同时有多个输出7. 为 Jupyter Notebook 即时创建幻灯片1. Pandas Profiling该工具效果明显。下图展示了调用 df.profile_report() 这一简单方法的结果:使用该工具只需安装和导入 Pandas Profiling 包。本文不再详述这一工具,如欲了解更多,请阅读:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d2. 使用 Cufflinks 和 Plotly 绘制 Pandas 数据「经验丰富的」数据科学家或数据分析师大多对 matplotlib 和 pandas 很熟悉。也就是说,你只需调用 .plot() 方法,即可快速绘制简单的 pd.DataFrame 或 pd.Series:有点无聊?这已经很好了,不过是否可以绘制一个交互式、可缩放、可扩展的全景图呢?是时候让 Cufflinks* *出马了!(Cufflinks 基于 Plotly 做了进一步的包装。)在环境中安装 Cufflinks,只需在终端中运行! pip install cufflinks --upgrade 即可。查看下图:效果好多了!注意,上图唯一改变的是 Cufflinks cf.go_offline() 的导入和设置,它将 .plot() 方法变为 .iplot()。其他方法如 .scatter_matrix() 也可以提供非常棒的可视化结果:需要做大量数据可视化工作的朋友,可以阅读 Cufflinks 和 Plotly 的文档,发现更多方法。
-
Cufflinks 文档:https://plot.ly/ipython-notebooks/cufflinks/
-
Plotly 文档:https://plot.ly/
-
我们有一个函数,它以列表为输入,并对所有的偶数取平方值。
-
我们运行函数,但是出了些问题。但是我们并不知道怎么回事!
-
对该函数使用%debug 命令。
-
让调试器告诉我们 x 和 type(x) 的值。
-
问题显而易见:我们把'6'作为字符串输入到函数中了!
-
%store [variable] 存储变量。
-
%store -r [variable] 读取/检索存储变量。
-
Esc:进入命令模式。在命令模式内,你可以使用方向键在 notebook 内进行导航。
-
A 和 B:在当前单元格上方(Above)或下方(Below)插入新的单元格。
-
M:当前单元格转入 Markdown 状态。
-
Y:当前单元格转入 code 状态。
-
D,D:删除当前单元格。
-
Enter:当前单元格回到编辑模式。
-
Shift + Tab:为你在当前单元格中键入的对象提供文档字符串(文档),持续使用该快捷键,可循环使用文档模式。
-
Ctrl + Shift + -:在光标所在处分割当前单元格。
-
Esc + F:查找并替换代码(不包括输出)。
-
Esc + O:切换单元格输出。
-
Shift + Down 和 Shift + Up:选中下方或上方的单元格。
-
Shift + M:合并选中单元格。