如何将离散特征变为连续特征python 如何将离散数据连续化

关注 mob64ca13f3c9f0

如何将离散特征变为连续特征python 如何将离散数据连续化

转载

mob64ca13f3c9f0 2023-10-29 07:19:20

文章标签 如何将离散特征变为连续特征python python 开发语言离散化数据 文章分类 Python 后端开发

离散化连续型数据

准备数据

准备数据detail.csv”，并将数据文件detail.csv放到到Linux本地的/course/DataAnalyze/data目录,并读取数据

In[1]:	import os import pandas as pd import numpy as np os.chdir('/course/DataAnalyze/data') detail = pd.read_csv('./detail.csv',encoding = 'gbk', engine = 'python')

离散化连续型数据

等宽法

pandas提供了cut函数，菜品售价使用cut函数进行等宽法离散化处理，如代码 42所示。

代码 42 等宽法离散化示例

In[2]:	price = pd.cut(detail['amounts'],5) print('离散化后5条记录售价分布为：\n' ,price.value_counts())
Out[2]:	离散化后5条记录售价分布为： (0.823, 36.4] 818 (36.4, 71.8] 495 (71.8, 107.2] 134 (142.6, 178.0] 73 (107.2, 142.6] 26 Name: amounts, dtype: int64

使用等宽法离散化的缺陷从代码 42中可以很明显地看出：等宽法离散化对数据分布具有较高要求，若数据分布不均匀，那么各个类的数目也会变得非常不均匀，有些区间包含许多数据，而另外一些区间的数据极少，这会严重损坏所建立的模型。

等频法

对菜品售价使用等频法离散化如代码 43所示。

代码 43 等频法离散化示例

In[3]:	##自定义等频法离散化函数 def SameRateCut(data,k): w=data.quantile(np.arange(0,1+1.0/k,1.0/k)) data=pd.cut(data,w) return data result=SameRateCut(detail['amounts'],5).value_counts() ##菜品售价等频法离散化 print('菜品数据等频法离散化后各个类别数目分布状况为：','\n',result)
Out[3]:	菜品数据等频法离散化后各个类别数目分布状况为： (18.0, 32.0] 2107 (39.0, 58.0] 2080 (32.0, 39.0] 1910 (1.0, 18.0] 1891 (58.0, 178.0] 1863 Name: amounts, dtype: int64

代码 43所展现的等频法离散化的方法，相比较于等宽法离散化而言，避免了类分布不均匀的问题，但同时却也有可能将数值非常接近的两个值分到不同的区间以满足每个区间中固定的数据个数。

基于聚类分析的方法

菜品售价使用聚类分析的方法如代码 44所示。

代码 44 基于聚类分析的离散化

In[4]:	##自定义数据K-Means聚类离散化函数 def KmeanCut(data,k): from sklearn.cluster import KMeans #引入KMeans kmodel=KMeans(n_clusters=k,n_jobs=4) ##建立模型，n_jobs是并行数 kmodel.fit(data.reshape((len(data), 1))) ##训练模型 c=pd.DataFrame(kmodel.cluster_centers_).sort_values(0) ##输出聚类中心并排序 w=c.rolling(2).mean().iloc[1:] ##相邻两项求中点，作为边界点 w=[0]+list(w[0])+[data.max()] ##把首末边界点加上 data=pd.cut(data,w) return data result=KmeanCut(np.array(detail['amounts']),5).value_counts() ##菜品售价等频法离散化 print('菜品售价聚类离散化后各个类别数目分布状况为：','\n',result)
Out[4]:	菜品售价聚类离散化后各个类别数目分布状况为： (0.0, 22.31] 375 (22.31, 43.51] 551 (43.51, 73.945] 387 (73.945, 131.858] 160 (131.858, 178.0] 73 dtype: int64

K-Means聚类分析的离散化方法可以很好地根据现有特征的数据分布状况进行聚类，但是由于K-Means算法本身的缺陷，用该方法进行离散化时依旧需要指定离散化后类别的数目。此时需要配合聚类算法评价方法，找出最优的聚类簇数目。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：z390魔改bios z390魔改上笔记本u

下一篇：bios 硬盘休眠 212p3硬盘休眠

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册