四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据集

四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据集_02



奉献更多优质内容

在数据分析的过程中,相信大家用的最多的就是Pandas库,无论是统计分析还是可视化等等,Pandas都给我们提供了诸多便利。今天小编就来和大家说说在Pandas库中那些不为人所熟知但是却十分好用的函数,希望大家看了之后也能够受益匪浅

01

PART

idxmax()和idxmin()

从函数名称中我们就能直观的理解这几个函数的作用--返回最大值或者是最小值的索引,这里我们用到的数据集是“泰坦尼克号”乘客信息的数据集(是的,就是那个家喻户晓的kaggle入门级别的项目的数据集),假设我们要找到年龄最小或者最大的乘客的姓名,我们可以这么做,


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据_03

但是酱紫稍显繁琐,要是我们运用上述提到的函数就可以,


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据_04

输出的结果都是一致,但是显得更加的简洁与高效

02

PART

      cut()

简而言之,cut()函数能够将数值划分成等额的数份,比如还是“泰坦尼克号”数据集中有代表乘客年龄的数据,我们将乘客的年龄等额的划分成5份,


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据集_05

第一位乘客的年龄在16与32岁之间,第二位乘客的年龄则在32到48岁之间等等。或者你想用数字来代替图中的区间,则可以用


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据_06

03

PART

nsmallest和nlargest

从函数名中,我们就能轻松的领悟到函数的作用了,比方说我们想找到在泰坦尼克号乘船中,年龄最大的3位乘客的姓名是什么,我们则可以


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据_07

04

PART

     pivot_table

也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了类似的功能,名为pivot_table,比方说我们想查找出数据集当中,三等舱男性的平均生存率,我们可以通过层层筛选来得出结论,


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_深度学习_08

但假如我们想查找船舱中不同性别不同等级的客舱的平均生还率时,pivot_table就是一个非常好的工具,我们可以将性别设置成为索引,每一列代表客舱的等级,计算的方式则是采用取平均,也就是mean,如下图所示,


四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据集_09

在Pandas库当中能够帮我们显著提效的函数还有很多,但是数据分析说到底也只是一种工具,来帮助我们发现与分析问题,但是要落实到解决问题,靠的依然是对业务的理解与思考。所以很多时候,做一个深度思考者比使用工具来的更加的重要,五一快乐!

四个好用却可能不为人所熟知的Pandas函数,建议收藏!!!_数据集_10