简单认识Anaconda

1概念:可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本
2.Anaconda是一个包含180+的科学包及其依赖项的发行版本。其包含的科学包包括:conda, numpy, scipy, ipython notebook等
3.conda是包及其依赖项和环境的管理工具
4.创建及切换环境命令

conda -V  #查看版本
python --version #可以检查当前python的版本
conda info -e  #查看所有虚拟环境 
conda list #查看已经安装的包
conda update conda #检查更新当前conda

#name是你的环境创建的名字可命名任意字符串
conda create -n name python==3.7  #创建python虚拟环境 
conda activate name #激活环境
conda remove -n name--all  #删除python虚拟环境 

jupyter-notebook #打开在线编辑器

数据分析使用的库,先安装

1.pip install sklearn
2.pip install matplotlib
3.pip install pandas

数据分析大致概念

1.数据采集 2.数据处理 3.数据建模 4.数据分析 5.数据可视化

下载anaconda之前需要删除python么 anaconda还需要安装库吗_python

基于鸢尾花聚类算法

1.Knn算法

下载anaconda之前需要删除python么 anaconda还需要安装库吗_python_02

2.实践代码
(1)代码介绍
sklearn具体介绍参考

1.sklearn是基于python语言的机器学习工具包,自带了大量的数据集。
sklearn集成了数据预处理、数据特征选择、数据特征降维、分类\回归\聚类模型、模型评估等非常全面算法

下载anaconda之前需要删除python么 anaconda还需要安装库吗_机器学习_03

数据集

介绍

load_iris( )

鸢尾花数据集:3类、4个特征、150个样本

load_boston( )

波斯顿房价数据集:13个特征、506个样本

下载anaconda之前需要删除python么 anaconda还需要安装库吗_机器学习_04

(2)执行代码 代码参考链接

from sklearn.datasets import load_iris                  #鸢尾花数据集
from sklearn.model_selection import train_test_split    #随机划分训练集和测试集
from sklearn.model_selection import cross_val_score     #交叉验证   返回一个分数
from sklearn.neighbors import KNeighborsClassifier      #knn K近邻分类器
#声明自定义函数
def test_train():
    iris = load_iris()
    x = iris.data       
    print("x =", x)     #打印样本数据
    print("xsize = ", len(x))
    print("iris.feature = ", iris.feature_names) #打印数据每列的属性名
    y = iris.target     #打印目标数据结果
    print("y =", y)
    print("ysize =", len(y))
  	print("iris.target_names= ", iris.target_names) #打印目标结果的含义
    iris.feature_names
    #将数据集分割 训练集 测试集  x 特征  y 答案  通过x得出y       测试集占训练级的30%
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
    print("train_test_split = ", x_train, x_test, y_train, y_test)
    print("行列维度x_train.shape = ", x_train.shape)   #行列维度
    x_train.shape
    print("行列维度y_train.shape = ", y_train.shape)
    y_train.shape
    #利用knn模型进行预测结果
    knn=KNeighborsClassifier(n_neighbors=5)    #相邻的5种数据做一个分析
    scores = cross_val_score(knn, x, y, cv=5, scoring='accuracy')
    print("scores = ",scores)  #准确率
    
#执行函数
 test_train()