准备工作:下载示例数据,提取码:tkqn 数据例子




Python常见的数据统计类函数 python 数据统计分析_python 去重


数据预览

经过了数据读取、数据预览、数据清洗 ,接下来需要对数据进行统计分析。如:计数、均值、求和、分组计数求和等。


计数&去重计数

比如要统计数据中的商品总数、用户数,注意是去重计数。先回顾一下,数据amazon_data总共有 568,450条,14列。


num_goods = len(amazon_data['ProductId'].drop_duplicates())   #商品去重计数
count_goods = amazon_data['ProductId'].count()    #商品计数
print('商品去重计数: %d, 未去重计数: %d n' %(num_goods,count_goods))  #打印数据,n是换行符

num_users = len(amazon_data['UserId'].drop_duplicates())  #用户去重计数
count_users = amazon_data['UserId'].count()    #用户计数
print('用户去重计数: %d, 未去重计数: %d' %(num_users,count_users))


Python常见的数据统计类函数 python 数据统计分析_某天没有数据能查出来0数量_02


Python中,可以利用count()方法对某一列进行计数,但是是统计的所有数量,而不是去重数。去重计数的原理,是先将某列删除重复项,即 drop_duplicates(),再用len()函数去求去重列的长度。

比如在计算某天的UV、购买用户数、购买商品数等等指标时,是需要去重的。

求和&均值

对表格的成交金额进行求和,看看总共卖出去多少钱,即对 amazon_data['price(yuan)']列进行求和。


sales = amazon_data['price(yuan)'].sum()   #求和
avg_price = amazon_data['price(yuan)'].mean()  #均值
print('总共售出: %d 元,订单均价: %.2f' %(sales,avg_price))


Python常见的数据统计类函数 python 数据统计分析_python去重_03


分组计数、求和、均值

比如需要知道每个用户的订单数,每个用户的总成交额,要用到groupby()分组。假设表格记录的数据就是订单数据,每一条记录代表一条订单。


user_order_num = amazon_data.groupby('UserId')['Id'].count()  #每个用户购买的订单数
user_sales = amazon_data.groupby('UserId')['price(yuan)'].sum()  #每个用户的成交金额
user_avg_price = amazon_data.groupby('UserId')['price(yuan)'].mean()  #每个用户的订单均价

print(user_order_num.sort_values(ascending=False))  #购买次数降序排列


即,按UserId进行分组,对Id列进行计数,对price列进行求和、均值。咱们看看用groupby分组统计之后,得到的数据格式:(大家可以自行搜这个格式的定义、使用)


Python常见的数据统计类函数 python 数据统计分析_某天没有数据能查出来0数量_04


Python常见的数据统计类函数 python 数据统计分析_python统计excel中重复数据_05


Python常见的数据统计类函数 python 数据统计分析_Python常见的数据统计类函数_06


这样,就可以得到每个用户的购买次数。可以看到【A3OXHLG6DIBRW8】这名用户购买次数最多,达到 448次,而且购买金额在 23,183元,超级忠诚了。


专栏列表

数据分析与Python:【Python代替Excel】1:Python与Anaconda

数据分析与Python:【Python代替Excel】2:数据的读取

数据分析与Python:【Python代替Excel】3:数据的预览

数据分析与Python:【Python代替Excel】4:数据的清洗