- 什么是机器学习
广义上:机器学习是一种能够赋予机械学习的能力以此让它完成直接编程无法完成的功能的方法。
实践意义: 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
通俗来讲:三个基本要素:任务T、经验E和性能P。机器学习=通过经验E的改进后,机器在任务T上的性能P所度量的性能有所改进=T–>(从E中学习)–>P(提高)
- 监督学习
我们给算法一个数据集,其中包含了正确答案。
概念:
通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。
回归问题(Regression):输入变量和输出变量均为连续的变量
分类问题(Classfication):输出变量为有限个离散变量
- 无监督学习
概念:
训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。
应用:
比较典型的是一些聚合新闻网站(比如说百度新闻、新浪新闻等),利用爬虫爬取新闻后对新闻进行分类的问题,将同样内容或者关键字的新闻聚集在一起。所有有关这个关键字的新闻都会出现,它们被作为一个集合,在这里我们称它为聚合(Clustering)问题。