本书介绍
本书是为NYU数据科学中心的数据科学的概率和统计课程而编写的。目标是从基本原理出发,介绍概率和统计学基本概念。简单定义为:数据科学是从数据中提取有用知识的一系列技能和技术。这些技能通常用德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表示:
三个圆圈分别代表三个不同的领域:编程领域(语言知识、语言库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、金融、工业等)。这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。
本书目录
本书内容截图