简单概念及关系

 

数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘的一个重要方法,是机器学习,即通过程序积累经验,但机器学习是一门学科,并不从属于数据挖掘,二者相辅相成;而速度学习是机器学习的一个子集,就是用复杂、庞大的神经网络进行机器学习。统计学与机器学习是在研究模型与算法,统计学基于数学,而机器学习基于机器自主学习,是数学、统计学、计算机科学的交融结合。

数据挖掘

顾名思义就是从海量数据中“挖掘”影藏信息,这里的数据是“大量的,不完全的,有噪声的,模糊的,随机的实际应用数据",信息指的是”隐含的,规律性的,人们事先未知的,但又是潜在有用并且最终可理解的信息和知识“。在商业环境中,企业希望让存放在数据库中的数据能”说话“,支持决策。所以,数据挖掘更偏向于应用。为了做好数据挖掘,企业又需要建立数据仓库。

机器学习

机器学习,就是利用计算机、概率论、统计学等知识,通过给计算机程序输入数据,让计算机学会新知识,是实现人工智能的途径,但这种学习变化不会让机器产生意识。机器学习的过程,就是通过训练数据寻找目标函数。数据质量会影响j机器学习深度,所以数据预处理非常重要。传统数据挖掘主要针对相对少量、高质量的样本数据,机器学习更多的是针对海量繁杂的大数据。但机器学习并不一定要全局数据,只是在大数据时代,堆数据、堆机器的方法在工业界成本低而见效快,被广泛采用。

深度学习

深度学习是机器学习的一种,现在深度学习比较火爆。在传统机器学习中,手工设计特征对学习效果很重要,但是特征工程非常繁琐。而深度学习能够从大数据在自动学习特征,这也是深度学习在大数据时代受欢迎的一大原因。

统计学

统计学主要分为一般统计和经济统计两类专业方向。一般统计主要是对统计学的基本理论和方法进行研究;经济统计则是提供科学地调查、搜集经济信息,以及描述、分析经济数据并对社会经济进行过程进行预测、监督的一门科学。