k-means
什么叫做无监督学习?
数据集只有特征值但是缺少目标值。不知道自己做得预测值是正确或不正确。
k-means
如上图,每个人的衣着作为每个人特征,我们将相似的特征作为一个类别进行分析。简称:“物以类聚,人以群分”。
举例
K:把数据划分为多少个类别。例:K=2,则划分为2个类别;K=3,则划分为3个类别;K=4,则划分为4个类别…
一般情况下,我们需要提前知道类别的个数。若不知道类别个数时,则k就是一个超参数。
当k=3时,
- 随机在数据中抽取三个样本,当作三个样本的中心点(k1,k2,k3)。
- 计算其余的点分别到这三个中心点的距离,每个样本有三个距离(a,b,c),从中选出距离最近的一个点作为自己的标记。形成三个族群。
- 分别计算这三个族群的平均值,把三个平均值与之前三个旧中心点进行比较。如果比较相同,结束聚类;如果不相同,把这三个平均值当作新的中心点。重复第2步。
所以,聚类一般做在分类操作之前
知识储备
k-means API
sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)
- n_clusters:开始的聚类中心数量
- init:初始化方法,默认为’k-means ++’
- labels_:默认标记的类型,可以和真实值比较(不是值比较)
代码演示:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
def means():
# 读取四张表的数据
prior = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")
# 合并四张表到一张表 (用户-物品类别)
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])
# 交叉表(特殊的分组工具)
cross = pd.crosstab(mt['user_id'], mt['aisle'])
# 进行主成分分析
pca = PCA(n_components=0.9)
data = pca.fit_transform(cross)
# 把样本数量减少
x = data[:500]
# 假设用户一共分为四个类别
km = KMeans(n_clusters=4)
km.fit(x)
predict = km.predict(x)
# 显示聚类的结果
plt.figure(figsize=(10,10))
# 建立四个颜色的列表
colored = ['orange', 'green', 'blue', 'purple']
colr = [colored[i] for i in predict]
plt.scatter(x[:, 1], x[:, 20], color=colr)
plt.xlabel("1")
plt.ylabel("20")
plt.show()
# 评判聚类效果,轮廓系数
silhouette_score(x, predict)
if __name__ == "__main__ ":
means()
聚类评估标准
对于每一个样本
- 计算蓝1到自身类别的点距离的平均值a_i
- 计算蓝1分别到红色类别,绿色类别所有的点的距离,求出平均值
- 蓝1:轮廓系数[-1, 1]
通过极端情况考虑:
b1, b2,取其中最小的值当做b_ i
b_i>>a_i: 1 完美
a_i>>b_i:-1 最差