我们生活在一个数据量巨大,规模不断增加的世界中。这些数据来自科学(生物信息学,天文学,物理学,环境监测)和商业(客户数据库,金融交易,引擎监测,语音识别,监视,搜索)的许多不同来源。因此,掌握有关如何处理和从此类数据中提取价值的知识是一项关键且日益重要的技能。我们的社会还期望最终能够以一种自然的方式与计算机互动,以便计算机可以与人类“交谈”,“理解”他们所说的话并“理解”周围的视觉世界。这些都是艰巨的大规模信息处理任务,对计算机科学和相关领域提出了严峻的挑战。同样,人们希望控制越来越复杂的系统,其中可能包含许多相互作用的部分,例如在机器人技术和自主导航中。成功地掌握此类系统需要了解其行为背后的过程。因此,处理和理解来自复杂系统的如此大量的数据是当今迫切需要解决的问题,并且在可预见的将来很可能仍将如此。
机器学习是对能够模仿,理解和帮助人类和生物信息处理任务的数据驱动方法的研究。在这种追求中,出现了许多相关问题,例如如何压缩数据,解释和处理数据。通常,这些方法不一定直接模仿人工处理,而是要增强人工处理,例如预测股票市场或快速检索信息。在这种概率论中,关键是至关重要的,因为不可避免地我们有限的数据和对问题的理解迫使我们应对不确定性。从最广泛的意义上讲,机器学习和相关领域旨在“了解有关代理运行所在环境的有用信息”。机器学习还与人工智能紧密相关,机器学习更加强调使用数据来驱动和适应模型。
这本书的设计目的是针对那些对本科微积分和线性代数只有中等数学背景的学生。尽管对概率,微积分和线性代数有基本的了解,但并不需要正式的计算机科学或统计学背景即可学习。该书应该针对来自各种背景的学生,包括计算机科学,工程学,应用统计学,物理学和生物信息学,他们希望获得有关机器学习中概率方法的入门知识。为了与学生互动,该书仅使用对代数和微积分的最少引用介绍了推理的基本概念。越来越多的数学技术被推迟到需要的时候,总是以概念为主要而数学为次要的。
本书目录
内容节选