目录

  • 机器学习与深度学习
  • 监督学习与无监督学习


机器学习与深度学习

  • 机器学习可以被定义为从数据中总结经验,从数据中找出某种规律或者模型,并利用这些经验、规律或者模型来解决实际问题。机器学习算法主要包括决策树、聚类、贝叶斯分类、支持向量机、随机森林等。按照学习方法的不同进行划分,机器学习算法可以分为监督学习、无监督学习、半监督学习、集成学习、深度学习和强化学习。
  • 深度学习是机器学习的一个分支,是一种实现机器学习的技术。深度学习本来并不是一种独立的学习方法,但由于近几年该技术发展迅猛,一些特有的学习手段和模型相继出现,因此越来越多的人将其单独看作一种学习的方法。深度学习的概念源于对人工神经网络(Artificial Neural Network,ANN)的研究,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释图像、声音和文本等数据。深度学习是通过层次结构来完成特征从形成到更加抽象的高层特征提取工作的,进而对样本进行预测。深度学习可以解决有监督学习、强化学习、无监督学习等问题。神经网络算法是具有广泛适用性的一类算法,深度学习是人工神经网络的一个分支,具有深度网络结构的人工神经网络是深度学习最早的网络模型,深度神经网络相比于普通神经网络,其拥有更深更宽的网络结构,在此之上还有卷积层、LSTM等新的网络组件。

监督学习与无监督学习

  • 监督学习:使用带有类别标签的样本数据集训练的模型属于有监督学习,例如:分类学习、回归学习。
    比如:
    识别信封上手写的邮政编码
    【这里的输入是扫描的手写数字,预期输出是邮政编码中的实际数字。想要创建用于构建机器学习模型的数据集,你需要收集许多信封。然后你可以自己阅读邮政编码,将数字保存为预期输出。】;
    基于医学影像判断肿瘤是否为良性
    【这里的输入是影像,输出是肿瘤是否为良性。想要创建用于构建模型的数据集,你需要一个医学影像数据库。你还需要咨询专家的意见,因此医生需要查看所有影像,然后判断哪些肿瘤是良性的,哪些不是良性的。除了影像内容之外,甚至可能还需要做额外的诊断来判断影像中的肿瘤是否为癌变。 】
  • 无监督学习:使用不带有类别标签的样本数据集训练的模型属于无监督学习,例如:聚类学习。
    比如:
    确定一系列博客文章的主题
    【如果你有许多文本数据,可能想对其进行汇总,并找到其中共同的主题。事先你可能并不知道都有哪些主题,或者可能有多少个主题。所以输出是未知的。】;
    将客户分成具有相似偏好的群组
    【给定一组客户记录,你可能想要找出哪些客户比较相似,并判断能否根据相似偏好对这些客户进行分组。对于一家购物网站来说,客户分组可能是“父母”“书虫”或“游戏玩家”。由于你事先并不知道可能有哪些分组,甚至不知道有多少组,所以并不知道输出是什么。】