在大数据时代,我们建模数据量可能达到千万级甚至TB。大数据在给投资者介绍时很必要,容易得到融资。但对于数据科学家来说,有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。如果用全量数据建模或数据分析,成本太高,需要高性能服务器存储数据。这对中小公司来说不现实。

最经典案例是二战中德军坦克问题。在第二次世界大战期间,西方盟国不懈地努力确定德国的生产规模,并以两种主要方式进行处理:常规情报收集和统计估计。

pandas.DataFrame.sample随机抽样_抽样

英国人用统计学方法估计德国坦克数量和德国真实坦克数量非常接近,远比情报部门数据准确。

pandas.DataFrame.sample随机抽样_统计_02

python的pandas中自带有抽样的方法。这是相关官网文档介绍:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.orgpandas.DataFrame.sample随机抽样_pandas_03

输入参数说明

pandas.DataFrame.sample随机抽样_随机抽样_04pandas.DataFrame.sample随机抽样_统计_05

欢迎各位学习更多数据分析知识(博主录制)

https://edu.51cto.com/sd/8faab
pandas.DataFrame.sample随机抽样_抽样_06