目前为止,我们已经对数据有了初步的认识,大体上明白了我们要处理的数据类型。现在,我们将进入更深入的研究。首先,确保已经划分了测试集并放置一边,我们只会对训练集进行操作。另外,如果训练集很大,可以从中采样一些作为探索集(exploration set),方便进行快速处理。在我们这个例子中,数据集比较小,所以直接在训练集上处理即可。我们还要创建一个训练集的复制副本,这样就不会改动原来的训练集了。hou
个人网站:红色石头的机器学习之路 微信公众号:AI有道(ID:redstonewill)线性回归和逻辑回归通常是人们学习预测模型的第一个算法。由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了。而了解更多的学者会知道它们是所有回归模型的主要两种形式。事实是有很多种回归形式,每种回归都有其特定的适用场合。在这篇文章中,我将以简单的形式介绍 7 中最常见的回归模型。通过这篇文章,我希
红色石头的个人网站:redstonewill.com本章将完整地介绍一个端对端(End-to-End)机器学习项目。假如你是某个房地产公司刚雇佣的数据科学家,你所要做的事情主要分成以下几个步骤:1.整体规划。2.获取数据。3.发现、可视化数据,增加直观印象。4.为机器学习准备数据。5.选择模型并进行训练。6.调试模型。7.给出解决方案。8.部署、监控、维护系统1. 使用真...
一、介绍本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点,我们首先需要考虑猫、狗的量化特征,这样分类器算法才能利用这些特征对图片进行分类。例如我们可以通
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号