1.python基础的准备 本课程拟采用Python做为机器算法应用的实现语言,所以请确保: 1)安
读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 """ @author Rakers""" import p
机器学习数学部分常用相关概念: 高等数学 1)函数 2)极限 3)导数 4)极值和最值 5)泰勒级数
机器学习的步骤 数据,模型选择,训练,测试,预测 安装机器学习库sklearn pip list 查看版本
手写数字数据集 # 导入手写数据集 from sklearn.datasets import load_digits data = load_digits()
人工智能、机器学习和深度学习三者的联系与区别 人工智能(Artificial intelligence)简称AI
读取 def read_dataset(file_path='../data/SMSSpamCollection'): """ 读取数据集 :retur
的是数值型的样本,使用回归,可以在给定输入的时候
理解分类与监督学习、聚类与无监督学习(1)简述分类与聚类的联系与区别。 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。通过学习来得到样本属性与类标号之间的关系。 用自己的话来说
描述出其本身的含义特征选择 特征选择对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合 (2)增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。PCA PCA是一种数学降
逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? (1)增加样本量,这是万能的方法,适用任何模型; 如果数据稀疏,使用L1正则,其他情况,用L2要好,可自己尝试; 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度; 如果还过拟合,那就看看是否使用了过度复杂的特征构造工程,比如,某两个特征相乘/除/加等方式构造的特征,不要这样做了,保持原特征;检查业务逻辑,判断特征有效性,是否在用结
用过滤法对以下数据进行特征选择 [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featur
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号