数据挖掘的前世今生——开篇点题引言
点题:数据挖掘,又称大数据——即一种在大量数据中挖掘有价值信息的理论。
这里的价值主要指:寻找决策依据(由果寻因)、规律探寻(由因寻果)、知识/规律发现(由数据(可以是相关或不相关的)和结果(可以是已确定或不确定的)寻找其中的知识/规律)
上述中的数据可以是相关或不相关的
上述中的结果可以是已确定或不确定的或者人为构造的
人类/计算机决策流程(如本页图所示)
第一步:获取大量数据——情报信息收集
第二步:从大量数据中挖掘有价值信息——数据挖掘
第三步:根据最优约束原则(有价值信息)建立数学模型进行最佳决策——博弈论
数据挖掘主要用于发现最优约束原则,包括寻找事物规律、因、果等知识。
本文主论点:数据挖掘的作用:1、辅助人类思考;2、模拟人类工作;
引言:长期以来,人类文明的进步得益于不断将劳动用外力实现,这就需要在决策依据获取、决策方法智能化、执行机构性能优化三大方面的不断推陈出新。
人类/计算机思考流程可以简单用下图表示,科技的发展则是研究如何利用机器代替人类获取思考依据、如何思考、如何执行决策。获取思考依据、思考方式和执行方式也会随科技发展而不断发展。
古时候的道士往往这样预知事件:昨夜本道观天象,发现北斗南移,天狼耀青光,紫微星暗淡,西北瘴气环绕。掐指一算,大惊!今日大劫降临,贫道观…气数已尽,想要破此劫难必要…,如若不然…,无量天尊…
上述故事中思考的决策依据获取、决策方法智能化、执行机构性能优化分别是:
决策依据:北斗、天狼、紫微星、西北瘴气
决策方法:夜观天象后掐指一算
执行机构:如若不然…
正文:为起到要点强调的作用,部分描述会有重复。本文第1-2章 讲述数据挖掘的“来龙去脉”,第3-5章 讲述数据挖掘的前世今生。全文从工科角度撰写,仅供参考,如有不妥之处请包涵。