分类

逻辑回归

因变量的值是一种二分类数据, 一般用0和1来表示

sigmoid函数

python美赛建模 美赛 python_数据


利用y与p的函数关系将y与x的函数关系转化为p与x的函数关系

逻辑回归的实例

通过研究客户的年龄和年收入判断客户是否会购买某种商品

代码

支持向量机SVM

引入

如何用一条直线将两组不同的数据分开?

python美赛建模 美赛 python_机器学习_02


python美赛建模 美赛 python_数据_03

支持向量(Support Vectors):为什么是支持?直观地说就是这两个向量确定了两组数组分类的依据
SVM算法的特别之处:分类结果是由极端的个例所决定的

运用SVM算法进行分类的实例

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv("Social_Network_Ads.csv")

x = dataset.iloc[:, [2,3]].values

y = dataset.iloc[:, 4].values

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

from sklearn.preprocessing import StandardScaler

sc_x = StandardScaler()

x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
# 创建线性分类器
from sklearn.linear_model import LogisticRegression
classifier=LogisticRegression(random_state=0)
classifier.fit(x_train,y_train)
#运用SVM算法创建分类器
from sklearn.svm import SVC
classifier=SVC(kernel="linear",random_state=0)
classifier.fit(x_train,y_train)
y_pred=classifier.predict(x_test)

#利用混淆矩阵评估分类的性能
from sklearn.metrics import confusion_matrix

cn=confusion_matrix(y_test, y_pred)
#可视化分类结果(测试集)
from matplotlib.colors import ListedColormap
X_set, y_set = x_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('yellow', 'blue'))(i), label = j)
plt.title('Classifier (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

Kernel SVM

引入

多种类的数据无法线性分类

高维投射

目的:将线性不可分的数据投射到高维空间,使得其线性可分;最后再将分类结果投射到低维空间
e.g:

核函数的作用

将高维投射的过程简化

高斯镜像机核函数(RBF)

python美赛建模 美赛 python_分类_04


运用高斯核函数进行分类的实例:

python美赛建模 美赛 python_python_05

几种经常使用的核函数
  1. RBF Kernel
  2. Sigmoid Kernel
  3. Polynomial Kernel

python美赛建模 美赛 python_python_06

from sklearn.svm import SVC
classifier=SVC(kernel="rbf",random_state=0)
classifier.fit(x_train,y_train)
y_pred=classifier.predict(x_test)