python mat数据集 python tips数据集

转载

mob64ca1416f1ef 2023-10-12 23:53:35

文章标签 python mat数据集 python400集尚数据集数据缺失值 文章分类 Python 后端开发

一、数据来源

本节选用的是Python的第三方库seaborn自带的数据集，该小费数据集为餐饮行业收集的数据，其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。

import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport seaborn as sns #导入seaborn库tips=sns.load_dataset('tips')#seaborn库自带的数据集tips.head()

二、问题探索

一、小费金额与消费总金额是否存在相关性？

二、性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联？

三、小费金额占小费总金额的百分比是否服从正态分布？

三、数据清洗

tips.shape #数据集的维度

(244，7)

共有244条数据，7列。

tips.describe() #描述统计

描述统计结果如上所示。

tips.info() #查看缺失值信息

此例无缺失值。

四、数据探索

tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图

由图可看出，小费金额与消费总金额存在正相关性。

male_tip = tips[tips['sex'] == 'Male']['tip'].mean() #男性平均消费金额male_tip
3.0896178343949052
female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消费金额female_tip
2.833448275862069
s = Series([male_tip,female_tip],index=['male','female'])s
male      3.089618
female    2.833448
dtype: float64
s.plot(kind='bar') #男女平均小费柱状图

由图可看出，女性小费金额小于男性小费金额。

tips['day'].unique() #日期的唯一值
[Sun, Sat, Thur, Fri]
Categories (4, object): [Sun, Sat, Thur, Fri]
sun_tip = tips[tips['day'] == 'Sun']['tip'].mean()sat_tip = tips[tips['day'] == 'Sat']['tip'].mean()thur_tip = tips[tips['day'] == 'Thur']['tip'].mean()fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各个日期的平均小费值s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun'])s

s.plot(kind='bar') #日期平均小费柱状图

由图可看出，周六、周日的小费比周四、周五的小费高。

tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip'])tips.head(10) #小费所占百分比

tips['percent_tip'].hist(bins=50)#小费百分比直方图

由图可看出，小费金额占小费总金额的百分比基本服从正态分布。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python __sub__用法 python中subs

下一篇：java方法与方法之间通过bean调用 java中方法的定义与调用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python mat数据集 python tips数据集

python mat数据集 python tips数据集

51CTO博客