KDnuggets上有很多帖子,涉及数据科学,机器学习,深度学习,大数据等领域的关键术语和概念的解释(见这里,这里和这里)。事实上,这是KDnuggets非常重视的任务之一:在新的和经验丰富的从业者的脑海中引入和澄清概念。在许多这些帖子中,概念和术语经常被阐述并融入“大画面”中,有时会放弃关键概念以换取定义一些更大的概念。


这是KDnuggets上一系列此类帖子中的第一篇,它将提供相关术语集(本例中为机器学习)的简明解释,特别是对那些希望隔离和定义的人采用简单的方法。经过一番思考后,确定这些基础但尚未提供信息的帖子在过去没有得到足够的曝光,未来的迭代可能包括:


深度学习

自然语言处理

数据挖掘与数据科学

我们可以想到的其他有趣话题:)

这些定义中没有为您提供足够的信息?不用担心,因为每个术语列出了与KDnuggets相关帖子的链接以供进一步调查。


ML wordcloud

那么,让我们先来看看机器学习和相关主题。


1. 机器学习


根据米切尔的说法,机器学习“关注的是如何构建能够根据经验自动提高的计算机程序”。机器学习本质上是跨学科的,并且采用来自计算机科学,统计学和人工智能等领域的技术。机器学习研究的主要假象是从经验,算法中自动改进的算法,可以应用于计算机视觉,人工智能和数据挖掘等多种领域。


2. 分


分类涉及构建将数据分成不同类的模型。这些模型是通过输入一组训练数据构建的,这些训练数据的类被预先标记,以便算法学习。然后通过输入不保留类的不同数据集来使用该模型,允许模型基于它从训练集中学到的内容来预测其类成员资格。众所周知的分类方案包括决策树和支持向量机。由于这种类型的算法需要明确的类标记,因此分类是监督学习的一种形式。


3. 回


回归是很密切的关系分类。虽然分类涉及离散类的预测,但是当要预测的“类”由连续数值组成时应用回归。线性回归是回归技术的一个例子。


4. 聚


聚类用于分析不包括预先标记的类的数据,甚至根本不包括类属性。使用“最大化类内相似性和最小化类间相似性”的概念将数据实例组合在一起,如Han,Kamber和Pei简要描述的那样。这转化为聚类算法识别和分组非常相似的实例,而不是彼此非常相似的未组合实例。k均值聚类可能是聚类算法中最着名的例子。由于聚类不需要预先标记实例类,因此它是一种无监督学习的形式,意思是它通过观察而不是通过实例学习来学习。


集群5.


通过引入市场购物篮分析,最容易解释协会协会,这是一个众所周知的典型任务。市场购物篮分析试图识别由特定购物者选择并放置在其市场购物篮中的各种商品之间的关联,无论是真实的还是虚拟的,并指定支持和置信度量以进行比较。其价值在于交叉营销和客户行为分析。关联是市场篮子分析的概括,并且类似于分类,除了可以关联地预测任何属性。Apriori作为关联算法最着名的例子而享有成功。协会是无监督学习的另一个例子。


6. 决策树


决策树是自上而下,递归,分而治之的分类器。决策树通常由两个主要任务组成:树木归纳和树木修剪。树感应是将一组预先分类的实例作为输入,决定哪些属性最佳分割,分割数据集以及在得到的分割数据集上递归直到所有训练实例都被分类的任务。在构建我们的树时,目标是分割创建最纯子节点的属性,这样可以将为了对数据集中的所有实例进行分类而需要进行的分割数量保持最小。这种纯度是通过信息的概念来衡量的,信息的概念与先前看不见的实例需要了解多少以便对其进行适当分类有关。


完成的决策树模型可能过于复杂,包含不必要的结构,并且难以解释。树修剪是从决策树中删除不必要的结构的过程,以使其更有效,对人类更容易阅读,并且更准确。这种提高的准确性是由于修剪能够减少过度拟合。


7. 支持向量机


SVM能够对线性和非线性数据进行分类。SMV通过将训练数据集转换为更高维度,更高维度然后检查类之间的最佳分离边界或边界来工作。在SVM中,这些边界被称为超平面,通过定位支持向量或最基本定义类的实例及其边界来识别,这些边是与超平面和超平面之间的最短距离定义的超平面平行的线。支持向量。


SVM的宏观思想是,在具有足够多的维度的情况下,总能找到分离2个类的超平面,从而描绘数据集成员类。当重复足够次数时,可以生成足够的超平面以分离n维空间中的所有类。


SVM8. 神经网络


神经网络是受生物大脑启发的算法,尽管它们捕获实际大脑功能的程度存在很大争议,并且声称它们对生物大脑进行建模显然是错误的。神经网络由许多相互连接的概念化人工神经元组成,它们在它们之间传递数据,并且具有相关的权重,这些权重根据newtork的“经验”进行调整。神经元具有激活阈值,如果通过它们的相关权重和传递给它们的数据的组合来满足激活阈值,则激活阈值被激活; 被激活的神经元的组合导致“学习”。


9. 深度学习


深度学习是一个相对较新的术语,尽管它在最近的在线搜索急剧上升之前就存在了。由于其在许多不同领域取得了令人难以置信的成功,研究和工业正在蓬勃发展,深度学习是应用深度神经网络技术的过程 - 即具有多个隐藏神经元层的神经网络架构 - 来解决问题。深度学习是一个过程,如数据挖掘,它采用深度神经网络架构,这是特定类型的机器学习算法。


深度学习10. 强化学习


Bishop最好用简洁的句子描述强化学习:“强化学习关注的是在特定情况下寻找合适的行动以获得最大回报的问题。” 强化算法没有给出明确的目标; 相反,他们被迫通过反复试验来学习这些最佳目标。想想经典的马里奥兄弟电子游戏; 通过反复试验,强化学习算法将确定某些动作和按钮推动将提升玩家在游戏中的地位,并且反复试验将旨在产生最佳的游戏状态。


11.(k-fold)交叉验证


交叉验证是模型构建的一种确定性方法,通过省略数据集的k个段或折叠之一,对所有k-1段进行训练,并使用剩余的第k个来实现测试部分; 然后将该过程重复k次,将单个预测误差结果组合并在单个集成模型中求平均。这提供了可变性,目标是产生最准确的预测模型。


12.贝叶斯(Bayesian)


当提到概率时,有两种主要的思想流派:经典或频率论,概率解释根据随机事件的频率来观察概率。在某种程度上,贝叶斯概率观点旨在量化不确定性,并在可获得额外证据时更新给定概率。如果将这些概率扩展到真值,并将其分配给假设,那么我们就可以“学习”不同程度的确定性。