机器学习资源汇总整理

我应该从哪里开始?

如果您在这里寻找机器学习的一般介绍,我将按以下顺序进行:

  • James、Witten、Hastie 和 Tibshirani​​的统计学习导论。​​​这本教科书是对该领域的精彩介绍,由其一些主要专家撰写。它简短且写得很好,足以通篇阅读,足够高级,足以让来自不同背景的人接触到,但从某种意义上说,它教你去思考问题,而不是仅仅给你一个问题。食谱。该教科书在图书网站上以 PDF 格式免费提供,作者还在 Youtube 上提供了一系列优秀的视频,这些视频伴随着文本(这些视频在​​这里​​​被很好地组织成一个集合)。请注意,这本教科书还有一个“大姐姐”,经典的​​Elements of Statistical Learning​​,它涵盖了更多数学深度的相同内容。但是,我会从 ISL 开始,然后根据您的兴趣从那里转到 ESL。请注意,本书和课程中的代码是用 R 编写的,涵盖了大部分经典的 ML 工具包,但不包括深度学习。
  • 杰里米霍华德和雷切尔托马斯的​​Fast.ai。​​本课程为深度学习(现代机器学习中最受欢迎的分支)提供了一个易于理解但非常有效的介绍。该课程是实践性的,非常实用,但每节课都会为您提供工具,为 ML 的一些新分支(计算机视觉、NLP 等)构建一个非常有效的模型。该课程使用 Pytorch 和他们自己的库在 Python 中教授。

一旦您通过 ISL 和 fast.ai,您将掌握 ML 中所有最常用的技术(经典和前沿)。您将对哪些方法可以在何时起作用有一个不错的直觉,并且至少能够理解和修改 R 和 Python 中用于 ML 分析的代码。从那里开始,您应该准备好更深入地跳入您喜欢的领域的任何子区域。

根据背景和带宽,一个有动力的学生可能会在 1-4 个月内完成上述材料。去拿他们!????

计算机科学

理论

文件

描述

​CS 理论备忘单​

CS 理论备忘单,最初​​在此处访问​

Tim Roughgarden 的​​算法​​和​​算法讲座​

Tim Roughgarden 是我见过的最自然的老师之一。第一个链接是许多课程的 PDF 格式的讲义。他的算法 2 课程 (CS 261) 的视频在​​这里​​。第二个是指向他的新教科书页面的链接,但该页面还包含指向他的 CS 161 课程版本(算法 1)中所有 youtube 视频的链接。

编程备忘单

文件

描述

​R dplyr 备忘单​

Hadley 令人惊叹的数据整理包 dplyr 的备忘单。​​来自RStudio​​的众多项目之一

​R dplyr 和 data.table 并排​

Atrebas 对 dplyr 和 data.table 进行了很好的并排比较。

​R ggplot2 备忘单​

Hadley 惊人的绘图包 ggplot2 的备忘单。​​来自RStudio​​的众多项目之一

​SQL 连接备忘单​

带有玩具代码的经典 SQL 连接的图形描述

​Python 熊猫备忘单​

python 数据处理包 pandas 的备忘单。从​​这里下载​

​Python numpy 备忘单​

python 数值包 numpy 的备忘单。从​​数据营下载​

​Python keras 备忘单​

python NN 包 keras 的备忘单。从​​数据营​​下载。

​Python scikit-learn 备忘单​

python 机器学习包 scikit-learn 的备忘单。从​​数据营​​下载。

​Python seaborn 教程​

python绘图系统教程,seaborn。还没有为 matplotlib 找到一个很棒的。

​平面设计备忘单​

​从这里​​下载的可爱的小图形设计备忘单

Pytorch​​备忘单​​和​​教程​​和​​文档​

pytorch 团队有一些世界级的文档和教程。

真实分析

文件

描述

​测量、集成和实际分析​

Sheldon Axler 正在开发的关于测度理论和实分析的教科书。(​​网站​​)。

线性代数

文件

描述

​Boyd 应用线性代数​

Boyd 和 Vandenberghe 在 Applied LA(​​网站​​)上免费提供的书籍。

​Fast.ai 计算线性代数​

Rachel Thomas 将这本很棒的计算线性代数在线教科书与随附的​​youtube 视频​​放在一起。

​CS 229 线性代数笔记​

​来自斯坦福机器学习课程​​的线性代数参考。

​用于 DL 的矩阵计算​​ ​​(此处为 pdf)​

Parr/Howard 对用于深度学习的矩阵微积分进行了很好的概述。​​可在arxiv​​上引用。

​Strang:数据、信号和机器学习的矩阵方法​

Gil Strang 的新线性代数课程,侧重于与数据和 ML 相关的线性代数。Youtube 视频​​在这里​​。

​线性代数做对了,删节​

这是 Sheldon Axler 教科书 Linear Algebra Done Right 的免费版本,这是对该主题的一个很好的介绍性处理,易于理解,但比上述更纯粹的数学风格。

可能性

文件

描述

​概率备忘单​

概率备忘单,来自 William Chen 的​​github​

​MIT 6.041 介绍概率​

John Tsitsiklis 等人汇集了一些很棒的资源。他们经典的 MIT 概率介绍已在​​OCW​​上存档,并在 Edx 上提供(​​第 1​​部分,​​第 2 部分​​)。​​教科书​​也很棒。

​Joe Blitzstein 的 Stat110​

Joe Blitzstein 的本科概率课程与 6.041 的内容重叠度很高。与 6.041 一样,它也有很棒的​​教科书​​、​​youtube​​视频和​​edx​​产品。它也更有趣。

​数学僧侣​

这家伙很了不起。大约 250 个关于 ML、概率和信息论的 youtube 教程。

​高维土地的麻烦​

有趣的小博客文章介绍了高维几何及其与概率的相关性。

统计数据

文件

描述

​常见的统计测试是线性模型(或:如何教授统计数据)​​和​​统计测试备忘单​

这篇小博文做了一项令人难以置信的工作,解释了如何在单个框架(线性模型)下直观地统一一大堆常见的统计测试

Russell Poldracks​​的 21 世纪统计思维​

这似乎是一本非常棒(尽管相当初级)的教科书,适用于统计课的四分之一介绍(斯坦福大学的统计数据 60)。尽管假设很少,但它涉及了很多很棒的话题。

​道格·斯帕克斯的数据 200​

来自 Doug Sparks 2014 提供的​​stats 200的关于统计推断的精彩课程笔记​

​现代生物学的现代统计学​

这本在线教科书出自 Susan Holmes 和 Wolfgang Huber,它为现代数据科学与计算生物学家相关的部分提供了一个很好且易于理解的介绍。它也恰好是一件印刷艺术,是用​​bookdown​​创作的。

​统计反思​

​youtube​​上的讲座视频伴随着这本精彩的介绍性教科书。

​看到理论频率论推理​

这是来自 Seeing Theory 教科书的频率论推理基本思想的非常漂亮的视觉呈现。我喜欢它。

​Estadística Multivariada​

María Teresa Ortiz 和 Felipe González 的多元统计数据集的精美注释。涵盖贝叶斯网络、高斯模型、缺失数据、潜变量模型和贝叶斯方法。

​Estadística Computacional​

来自 María Teresa Ortiz 的关于计算统计数据的漂亮笔记。涵盖基本的概率、模拟、可视化、推理和一些基本的贝叶斯方法。

因果推理

文件

描述

​埃尔南和罗宾斯因果推理书​

即将出版的因果推理教科书(从流行病学的角度来看),其草稿在网页上经常更新。

​因果推理书​​和​​词汇表和注释中的所有 DAG​

在第一篇文章中,我将 Hernan 和 Robbins 书中的所有 DAG 编译到一个地方以便于使用。在第二部分,我有一些额外的笔记来附在本书的第一部分。

​ML Book 中的 Robert Osazuwa 因果建模​

看起来是一个很好的因果模型和生成模型开发课程。讲义正在​​这里的书本中制作​

​因果推理论文​

很好的 Github 存储库,它编译了一堆关于因果机器学习的 Arxiv 论文

​埃尔南选择偏差​

Hernan 等人通过有向无环图对选择偏差进行了很好的总结。

优化

文件

描述

​Boyd 凸优化书​

来自 Boyd 和 Vandenberghe 的著名且免费提供的教科书,附有​​幻灯片​​和 Youtube 视频。更高级的后续课程​​在这里​

​NYU 2016 年​​和​​2017 年​​基于优化的数据分析

​来自纽约大学2016 年网站​​和​​2017 年网站​​的基于优化的数据分析的精彩课程笔记。

​Ruder 梯度下降概述​​ ​​(此处为 PDF)​

梯度下降算法的伟大概述。

​Bottou大规模优化​

Bottou、Curtis 和 Nocedal 关于优化的注释。从​​arxiv​​下载。

信息论

文件

描述

​Chris Olah 视觉信息论​

与往常一样,克里斯·奥拉(Chris Olah)在文字和图像上都创造了令人惊叹的演示文稿。目标是可视化关键信息论概念。

​封面和托马斯 Ch2 - 熵和信息​

经典信息论教科书中写得非常好的介绍性章节。

​封面和托马斯 Ch11 - 信息理论和统计​

经典信息论教科书中的信息论和统计章节。

​从最大熵原理推导概率分布​

包含这个感觉很粘,很自私,但我写这篇文章是为了更好地理解如何使用信息论来理解/从第一原理推导出常见的概率分布。

​推导多元高斯的信息熵​

我写的另一篇博客文章试图理解信息论+统计学。

经典机器学习

教科书、讲座和课程笔记

文件

描述

​机器学习数学书​

Faisal 和 Ong 的数学优先但易于访问的机器学习入门教科书,可在​​github​​上获得。

Abu Mostafa​​从数据中学习​

“一个短期课程。不是一个匆忙的课程。” 关于机器学习。一个简洁但相当严格的不错的第一次治疗。还有​​按主题组织的视频​​。

Bishop​​模式识别与机器学习​

这是经典的 ML 文本,现在终于(合法)在线免费发布。

​CS 229 讲义​

​来自 Andrew Ng 令人惊叹的 ML: CS229​​研究生级别介绍的经典笔记集。

​CS 229 TA 备忘单 2018​

​来自 2018 年斯坦福机器学习课程​​的 TA 备忘单,Github repo​​这里​​。

Hastie 等人的​​ESL​​和[ISL](​​http://www-bcf.usc.edu/~gareth/ISL/ISLR​​ Seventh Printing.pdf)

世界级统计学教授对经典机器学习的初级 (ISL) 和高级 (ESL) 演示。ISL 上的 MOOC 的幻灯片和视频可​​在此处​​获得。

数据科学基础​​教科书​​和​​视频​

这个迷你课程似乎是从 CMU 的“信息时代的 CS 理论” ​​2012 网站​​发展而来的,我认为这是一个更好的名称。这是一门强大的本科生或研究生入门数学课程,涵盖了高维数据算法的基础。另一个使用教科书的课程在​​这里​​。高维概率部分很酷。

Tim Roughgarden 的​​现代算法工具箱​

CS 168:Modern Algorithmic Toolbox 对 PCA、SVD、压缩传感、张量和其他核心 ML 工具进行了出色的覆盖。

专题和博客文章

文件

描述

​Roughgarden SVD 笔记​

斯坦福大学​​Tim Rougharden 的 CS168​​对 SVD 的真正精彩介绍。

​粗略的 PCA 笔记​

来自斯坦福大学​​Tim Rougharden 的 CS168​​的 PCA 真的很棒。

贝叶斯机器学习

文件

描述

​CS 228 PGM 笔记​

斯坦福大学关于概率图形模型的非常棒的课程笔记。PDF 导出并不理想,因此仅链接到网站。

CMU PGM 课程​​2019​​和​​2014​

来自 CMU (10-708) 的不错的课程,涵盖 PGM 以及 - 在较新的产品中 - DL 的相关部分。有视频、抄写笔记和幻灯片。

​Blei 图形模型基础课程​

来自 David Blei 2016 网站的 2016 年图形模型基础课程笔记

​Blei 指数族/变分推理​

我特别喜欢 Blei 的​​2011 Probabilistic Modeling Course​​中的一些课程笔记)

​Blei 变分推理回顾​

David Blei 的变分推理概述可在​​arxiv上找到​

​高斯过程的可视化探索​

来自总是令人惊叹的 Distill 的高斯过程大师班展览。

深度学习

教科书、讲座和课程笔记

文件

描述

​Roger Grosse 的 CSC321 笔记​

来自 Roger Grosse 的 CSC 321​​完整网站的注释在这里​​。可能是我从任何一所大学找到的对 DL 课程的最佳介绍。笔记和幻灯片很漂亮。

​快艾​

Jeremy Howard 和 Rachel Thomas 的精彩介绍讲座 + 笔记本。此外,Hiromi Suenaga 还发布了全系列优秀且自成一体的笔记,并带有返回视频的时间戳链接:​​FastAI DL Part 1​​、​​FastAI DL Part 2​​和​​FastAI ML​​。

​CS231N DL 视觉​

Andrej Karapthy 的精彩笔记,以及在 Youtube 上的讲座。

​深度学习书​

这本由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 编写的教科书可能是我们所拥有的最接近 DL 的事实上的标准教科书。

​CS294-158 深度无监督学习​

来自伯克利的深度无监督学习公开课程。看起来棒极了。

专题和博客文章

文件

描述

Karpathy 的​​神经网络训练方法​

一篇很棒的博文,其中包含许多训练深度神经网络的小技巧

Josh Tobin 的深度神经网络故障排除​​视频​​和[幻灯片](​​http://josh-tobin.com/assets/pdf/troubleshooting-deep-neural-networks-01-19.pdf?utm_campaign=NLP​​ News&utm_medium=email&utm_source=Revue newsletter)

“修复模型的现场指导”,其中有一些不错的提示。

白昆仑​​的不同类型的卷积​

不错的博文,概述了深度学习中使用的许多不同类型的卷积。

对抗性示例/鲁棒 ML​​第 1​​部分、​​第 2​​部分和​​第 3 部分​

Madry​​实验室​​是强大的深度学习研究领域的顶级研究小组之一。他们在博客上对这些主题进行了精彩的介绍。我希望他们继续发帖……

​提炼注意力​

注意力机制及其(早期)变体的惊人清晰呈现

​翁莉莲关注帖​

关于注意力、自我注意力、变压器等的不错的博客文章

​Distill 构建可解释性​

我见过的最酷的神经网络内部可视化

​蒸馏特征可视化​

运行主题:如果只是 distill.pub,请阅读。

​Chris Olah 理解 LSTM​

Chris Olah 是他的手艺大师,这里提供了 LSTM 和 GRU 的精彩概述。

​联邦学习简介​

Andrew Trask 和其他使用 PyTorch 的人对联邦学习和 PySyft 的介绍。

​三元组损失和在线三元组挖掘博客文章​

Olivier Moindrot 博客上的精彩展示

​图卷积神经网络​

Thomas Kipf 关于 GCNN 的博客文章

指导性代码库

文件

描述

Sebastian Raschka 的​​深度学习模型 Github​

一组令人印象深刻的 TensorFlow 和 Pytorch 模型,在 80 多个 Jupyter Notebooks 中进行了注释和阅读。

​Pytorch 教程​

pytorch 开发人员发布的教程非常棒。很容易看出为什么社区发展如此之快。

Wiseodd 的​​网站​​和​​深度生成模型 Github​​和

一个惊人的深度学习实现集合。

自然语言处理

教科书、讲座和课程笔记

文件

描述

​Fast.ai NLP 简介​

fast.ai 的优秀人员对 NLP 的代码优先介绍。

​用于 NLP 2017 的 CS224W 深度学习​

​斯坦福CS224​​中关于 NLP 深度学习的精彩课程笔记。更新后的 noteset 似乎住​​在这里​​。

​CMU CS 11-747 NLP 深度学习​

来自 CMU 的 Graham Neubig 的关于 NLP 深度学习的精彩课程。Youtube 上非常棒的讲座视频在​​这里​

​CS224U 自然语言理解 2019​

斯坦福大学的另一门 DL+NLP 课程。还有随附的​​Youtube 视频​​和​​Github 存储库​

专题和博客文章

文件

描述

​Chris Olah 谈词嵌入​

Chris Olah 解释世界嵌入等。

​Peter Bloem 从零开始的变形金刚​

用一些很棒的图表和代码对变压器架构进行了很好的概述。

​图解变压器​

Jay Alammar 对变压器网络如何工作的很好的可视化。

​带注释的变压器​

哈佛的 Sasha Rush 逐行注释了“Attention is All You Need”,该注释也可用作工作笔记本。教学才华横溢,每年为几篇论文做这件事真是太棒了。

​Goldberg 的 NLP 神经网络入门​

Yoav Goldberg 的 NLP 深度学习概述​​从这里下载​​。

​Neubig 的 NLP 神经网络教程​

Graham Neubig 的 NLP 深度学习概述。从​​arxiv​​下载并与他的课程和视频完美搭配。

强化学习

教科书、讲座和课程笔记

文件

描述

​Sutton 和 Barto 打开 RL 书​

强化学习的事实上的标准介绍,尽管教科书现在才即将出版!

Emma Brunskill 的​​斯坦福强化学习课程​

斯坦福大学的一堂非常棒的强化学习课程。该网站有一个非常好的笔记集。此外,讲座视频在​​Youtube 上​​。

​伯克利深度强化学习​

伯克利的 RL 课程由该领域的顶尖人士教授,讲座发布到 Youtube。

专题和博客文章

文件

描述

​Karpathy 的 Pong From Pixels​

Andrej Karpathy 对教学很有天赋。这是对深度强化学习的独立解释,足以理解基本的 atari 代理。

​Weng 的 A (Long) Peek into RL​

一篇不错的博客文章,涵盖了强化学习的基础

​OpenAI 对 RL 的介绍​

OpenAI 的新​​“Spinning Up in Deep RL”网站的介绍性教程​

在生物学和医学中的应用

文件

描述

​医学机器学习数据集 github​

由 Andrew Beam 编译的一堆医学 ML 数据集的 Github 存储库。

​用于蛋白质设计的机器学习 github​

Kevin Yang 整理的不错的 github 存储库,涵盖了 ML 中蛋白质领域的大量内容。

​单细胞 RNA-Seq 教程中的最佳实践​

关于单细胞 RNA-seq 的优秀教程,介绍了 scRNA-seq 分析每个阶段的当前最佳实践。

杂项网站

文件

描述

​克里斯·奥拉的博客​

基本上这里的一切都是黄金。我非常感谢他必须在这些职位上投入的时间。

​蒸馏.pub​

Distill 在超级博客和研究期刊之间找到了一个非常有趣的鸿沟。我希望我们有更多这样的出版物。

​塞巴斯蒂安·鲁德的博客​

Sebastian 提出了很多非常棒的解释,比如我上面链接的梯度下降方法。他还维护一个​​网站跟踪 NLP 基准的进度​

​莉莲翁的博客​

关于强化学习、元学习和其他主题的精彩博客

​短科学​

该网站包含机器学习、计算机科学和生物学论文的公开摘要/讨论。

​伯克利人工智能研究 (BAIR) 博客​

BAIR 进行了大量出色的研究,并使用此博客发布更易于访问的论文演示文稿。

​偏离凸路径​

关于机器学习和优化的好博客。

​Ferenc Huszár 的博客​

非常受欢迎的博客,作者对 ML 进行了很多探索/思考,具有严谨的数学视角

​Thibaut Lienart 的博客​

这个网站有一些关于数学和优化的笔记,看起来很有趣。


Talk is cheap. Show me the code