使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集数据含义

转载

代码匠人之心 2024-04-16 11:17:11

文章标签 使用KNN分析乳腺癌数据集 python sklearn 逻辑回归数据集 文章分类 机器学习人工智能

数据集简介

乳腺癌数据集
经典的二分类数据集

569个样本，每个样本30个特征，阳性样本357，阴性样本212

关于乳腺癌数据集
乳腺癌数据集的原型是一组病灶造影图片，该数据集的提供者在收集到这些图片的初期，首先对图片进行了分析，从每张图片中提取主要的特征，然后编写图片处理程序，从图片中抽取这些特征。本数据集只关注了10个原始特征，然后又求得每个原始特征的标准差和最大值作为两个衍生特征，这样，最终数据集呈现出的效果便是30个特征
关于衍生特征
实际上，通过处理原始特征得到的衍生特征能够体现出事物间的内在逻辑。比如现在有多台主机，我们知道了每台主机的cpu占用率、内存占用率、网络吞吐量等三个特征，我们想要将其分类为（正常运行/不正常运行）两种状态，然而我们知道，仅仅凭借其中的任意一个特征判断主机状态都是不合理的，那么怎么办？
我们可以构造衍生特征：cpu占用率/内存占用率，cpu占用率/网络吞吐量作为新的特征，这些特征能够更好地反映出主机状态

函数参数

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)

return_X_y

若为True,则返回（data,target）
若为False，则返回一个Bunch对象

返回值

return_X_y=True

return_X_y=False

Bunch对象

Dictionary-like object

data:{ndarray, dataframe} of shape (569, 30)

数据矩阵，as_frame设置为True时，该属性将是一个DataFrame对象

target: {ndarray, Series} of shape (569,)

分类标签，as_frame设置为True时，该属性将是一个Series对象

feature_names: list

数据集每一列的名称

target_names: list

目标标签名称

frame: DataFrame of shape (569, 31)

只有当as_frame设置为True时，该属性才会生效，是一个DataFrame对象，里面包含了data和target

DESCR: str

关于数据集的完整描述

filename: str

breast_cancer数据集的本地的存储位置

使用示例

from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
x=cancer.data
y=cancer.target
x.shape,y.shape
>>> ((569, 30), (569,))

# 查看标签名称
cancer.target_names
>>> array(['malignant', 'benign'], dtype='<U9')

# 查看target中的数据是什么样子的
y[10:20],y[90:99]
>>> (array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1]), array([1, 0, 1, 1, 0, 0, 1, 1, 1]))

# 查看阳性和阴性样本数量
y[y==0].shape,y[y==1].shape
>>> ((212,),(357,))

# 查看每个特征的名称
cancer.feature_names
>>> array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')
# 查看特征数量
len(cancer.feature_names)
>>> 30

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：判断tensorflow的gpu tensorflow gpu和cpu

下一篇：hdfs namenoe元数据恢复 hdfs元数据更新和备份过程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集数据含义

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集数据含义

目录

数据集简介

函数参数

return_X_y

返回值

return_X_y=True

return_X_y=False

Bunch对象

data:{ndarray, dataframe} of shape (569, 30)

target: {ndarray, Series} of shape (569,)

feature_names: list

target_names: list

frame: DataFrame of shape (569, 31)

DESCR: str

filename: str

使用示例

51CTO博客

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集 数据 含义

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集 数据 含义

目录

数据集简介

函数参数

return_X_y

返回值

return_X_y=True

return_X_y=False

Bunch对象

data:{ndarray, dataframe} of shape (569, 30)

target: {ndarray, Series} of shape (569,)

feature_names: list

target_names: list

frame: DataFrame of shape (569, 31)

DESCR: str

filename: str

使用示例

51CTO博客

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集数据含义

使用KNN分析乳腺癌数据集 sklearn乳腺癌数据集数据含义