机器学习的数据,可以划分为训练集、验证集和测...
本文为《机器学习》西瓜书第2、5、9章第学习笔记,与原书第区别在于对关键知识点进行了内容提炼和给出了较为详细的公式推导,针对经典聚类算法,给出了自己的精简复现代码。
原创 精选 2023-02-20 22:25:06
330阅读
1. 朴素贝叶斯   贝叶斯决策理论方法是统计模型决策中的一个基本方法,基本思想如下:  (1) 已知类条件概率密度参数表达式和先验概率  (2) 利用贝叶斯公式转换成后验概率  (3) 根据后验概率大小进行决策分类。   贝叶斯概率研究的是条件概率,也就是研究的场景是在带有某些前提条件下,或者在某些背景条件的约束下发生的概率问
推荐 原创 2022-12-13 09:26:27
380阅读
3点赞
机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术
转载 精选 2012-10-09 19:24:45
536阅读
目录1 机器学习概述2 机器学习过程2.1 机器学习与人类学习3 机器学习的分类3.1 无监督学习3.2 监督学习3.3 深度学习3.4 强化学习4 机器学习应用人工智能,也就是我们每天挂在嘴边的AI,可以被简单地定义为努力将通常由
原创 精选 2022-06-26 01:35:43
393阅读
机器学习中,我们的模型建立完成后,通常要根据评估指标来对模型进行评估,以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此,我们在模型训练之前,要对训练集和测试集进行划分。一般数据集划分的方法有四种:留出法、交叉验证法、留一法、自助法。 注:数据集D划分为两个互斥的的集合,其中一个集合作为训练集S,另一个作为测试集T。数据集的具体划分方法1.留出法 留出法直接将数
原创 精选 2月前
139阅读
机器学习】数据科学基础——机器学习基础实践,基于百度飞桨开发,参考于《机器学习实践》所作。
推荐 原创 2022-08-14 10:07:18
695阅读
1点赞
机器学习机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及 概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技 能,重新组织已有的知识结构使之不断改善自身的性能。 普遍认为,机器学习的处理系统和算法是主要通过找出数据里隐藏 的模式进而做出预测的识别模式,它是人工智能的一个重要子领域。机器学习分类按照训练样
推荐 原创 2022-08-09 08:26:02
571阅读
1点赞
机器学习中,模型的性能往往受到模型的超参数、数据的质量、特征选择等因素影响。其中,模型的超参数调整是模型优
个体与集成集成学习的概念:通过构建并结合多个学习期来完成学习任务,通过投票(voting)产生;同质(homogeneous):多个“基学习器(base learner)”集成的学习器;(个体分类器算法类型相同)异质(heterogenous):由多个不同类型算法的组件学习器(component learner)集成的学习器;(个体分类器算法类型不同)要点:个体学习器的“准确性”和“多样性”很重要
原创 精选 10月前
311阅读
1. K-Means 算法    此算法是很常用的一个算法,也是基于向量距离来做聚类。算法步骤:    (1) 从 n 个向量对象任意选择 k 个向量作为初始聚类中心    (2) 根据在步骤(1)中设置的 k 个向量(中心对象向量),计算每个对象与这 k 个中心对象各自的距离  &nbs
原创 精选 2022-12-10 16:10:52
337阅读
3点赞
1. 概念2. 作用把前K个比较大的奇异值保留,其余设为0,得到Σ',由UΣ'VT得到A',其保留了A的主要信息,去掉可能存在的噪声,即不重要的信息。有助于建模,且有可能用其去选择更合适的特征,以及可以应用于隐特征的挖掘。比如:上述公式中U可以表示为用户信息,VT可以表示为商品特征,印刻可以用于商品的推荐。3. 步骤求ATA的特征值和特征向量(可以用QR分解,np.linalg.eig())特征向
原创 精选 2021-12-13 21:40:14
755阅读
1点赞
今天这篇文章和大家聊聊机器学习领域的熵。我在看paper的时候发现对于交叉熵的理解又有些遗忘,复习了一下之后,又有了一些新的认识。故写下本文和大家分享。熵这个概念应用非常广泛,我个人认为比较经典的一个应用是在热力学当中,反应一个系统的混乱程度。根据热力学第二定律,一个孤立系统的熵不会减少。比如一盒乒乓球,如果把盒子掀翻了,乒乓球散出来,它的熵增加了。如果要将熵减小,那么必须要对这个系统做功,也就是
原创 精选 2021-04-29 17:19:16
5230阅读
阿瑟.萨缪尔Arthur Samuel,1952年研制了一个具有自学习能力的西洋跳棋程序,1956年应约翰.麦卡锡John McCarthy(人工智能之父)之邀,在标
清洗标注数据的方法,主要是是数据采样和样本过滤。 数据采样:对于分类问题:选取正例,负例。对于回归问题,需要采集数据。对于采样得到的文本,根据需要设定样本权重,当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。采样的方法包括随机采样,固定比例采样等方法。 样本过滤:1.结合业务情况进行数据的过滤,例如去除crawler抓取,spam,作弊等数据。 - 2.异常点检测,采用异常点检测算法对样本进行分析,常用的异常点检测算法包括 - 偏差检测,例如聚类,最近邻等。
原创 精选 2023-02-13 00:07:03
321阅读
AdaBoost算法(Adaptive Boost)的核心思想是:如果一个弱分类器的分类效果不好,那么就构建多个弱分类器,综合考虑它们的分类结果和权重来决定最终的分类结果。很多人认为AdaBoost是监督学习中最强大的两种算法之一(另一个是支持向量机SVM)。AdaBoost的训练过程如下:为每个训练样本初始化相同的权重;针对训练样本及权重,找到一个弱分类器;计算出这个弱分类器的错误率ε与权重α;
推荐 原创 2014-11-06 10:20:42
5381阅读
1点赞
2评论
逻辑回归:解决分类问题逻辑回归既可以看做是回归算法,也可以看做是分类算法通常作为分类算法用,只可以解决二分类问题代码实现实现逻辑回归加载数据使用逻辑回归。
原创 精选 2月前
120阅读
导言如今,很多科技企业都投入了对机器学习技术的研究和应用中。但是面临的情况可能是组织已经在本地使用机器学习,但还不能够将其部署到生产环境中;或者能够部署模型,但无法对其进行有效管理。在这种情况下,最有价值的技能不是训练模型,而是管理模型,并以让它们产生最大影响的方式部署它们。了解模型开发生命周期通常机器学习或模型开发遵循以下路径:数据→信息→知识→洞察力。这种从数据中产生洞察力的方式可以用下图来形
原创 精选 2023-02-20 19:28:59
1488阅读
人从过去经验中学习机器从过往数据中学习。回归模型是一个预测值的模型
原创 精选 2023-04-09 20:35:27
278阅读
特征选择和稀疏学习子集搜索与评价对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的某一个特性。对一个学习任务而言,有些属性是关键有用的,而有些属性则可能不必要纳入训练数据。对当前学习任务有用的属性称为相关特征(relevant feature)、无用的属性称为无关特征(irrelevantfeature)。从给定的特征集合中选择出相关特征子集的过程,称为特征选择(featur
原创 精选 3月前
697阅读
  • 1
  • 2
  • 3
  • 4
  • 5