简单认识Anaconda
1概念:可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本
2.Anaconda是一个包含180+的科学包及其依赖项的发行版本。其包含的科学包包括:conda, numpy, scipy, ipython notebook等
3.conda是包及其依赖项和环境的管理工具
4.创建及切换环境命令
conda -V #查看版本
python --version #可以检查当前python的版本
conda info -e #查看所有虚拟环境
conda list #查看已经安装的包
conda update conda #检查更新当前conda
#name是你的环境创建的名字可命名任意字符串
conda create -n name python==3.7 #创建python虚拟环境
conda activate name #激活环境
conda remove -n name--all #删除python虚拟环境
jupyter-notebook #打开在线编辑器
数据分析使用的库,先安装
1.pip install sklearn
2.pip install matplotlib
3.pip install pandas
数据分析大致概念
1.数据采集 2.数据处理 3.数据建模 4.数据分析 5.数据可视化
基于鸢尾花聚类算法
1.Knn算法
2.实践代码
(1)代码介绍
sklearn具体介绍参考
1.sklearn是基于python语言的机器学习工具包,自带了大量的数据集。
sklearn集成了数据预处理、数据特征选择、数据特征降维、分类\回归\聚类模型、模型评估等非常全面算法
数据集 | 介绍 |
load_iris( ) | 鸢尾花数据集:3类、4个特征、150个样本 |
load_boston( ) | 波斯顿房价数据集:13个特征、506个样本 |
(2)执行代码 代码参考链接
from sklearn.datasets import load_iris #鸢尾花数据集
from sklearn.model_selection import train_test_split #随机划分训练集和测试集
from sklearn.model_selection import cross_val_score #交叉验证 返回一个分数
from sklearn.neighbors import KNeighborsClassifier #knn K近邻分类器
#声明自定义函数
def test_train():
iris = load_iris()
x = iris.data
print("x =", x) #打印样本数据
print("xsize = ", len(x))
print("iris.feature = ", iris.feature_names) #打印数据每列的属性名
y = iris.target #打印目标数据结果
print("y =", y)
print("ysize =", len(y))
print("iris.target_names= ", iris.target_names) #打印目标结果的含义
iris.feature_names
#将数据集分割 训练集 测试集 x 特征 y 答案 通过x得出y 测试集占训练级的30%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
print("train_test_split = ", x_train, x_test, y_train, y_test)
print("行列维度x_train.shape = ", x_train.shape) #行列维度
x_train.shape
print("行列维度y_train.shape = ", y_train.shape)
y_train.shape
#利用knn模型进行预测结果
knn=KNeighborsClassifier(n_neighbors=5) #相邻的5种数据做一个分析
scores = cross_val_score(knn, x, y, cv=5, scoring='accuracy')
print("scores = ",scores) #准确率
#执行函数
test_train()