Jupyter Notebook 是许多数据科学家的主要环境,尤其是那些使用 Python 作为主要编程语言的人。 IDE 非常适合探索数据和开发机器学习模型。 但是,有时本地的 Jupyter Notebook 无法满足计算资源的要求——这就是我们需要寻找其他替代方案的原因。

Deepnote

Deepnote 是一款浏览器Jupyter Notebook,用于与团队协作工作。 Deepnote 适合单人工作,因为 Notebook 功能齐全; 然而,它是为了实时工作集成而开发的。

我们来看看整个 Notebook 和 Deepnote 提供的按钮。

3 个可以薅羊毛的在线 Jupyter Notebook环境_机器学习

Deepnote 本质上是免费使用的; 但是,如果您需要更高的机器能力,则需要付款。 虽然,我觉得如果只用于自己的个人项目,免费的 Notebook 已经足够了。 您可以在下图中看到 Deepnote 的价格和功能(很贵,哈)。

3 个可以薅羊毛的在线 Jupyter Notebook环境_机器学习_02

我们来看看 Deepnote Notebook 的一些功能。 我喜欢 Deepnote 的功能之一是它的可视化功能。 从下图中可以看出,它们具有根据列对象的自动特征可视化。

3 个可以薅羊毛的在线 Jupyter Notebook环境_python_03

Deepnote 还包含一个可视化栏,您可以使用它来创建二维可视化。 我会在下图中展示它。

3 个可以薅羊毛的在线 Jupyter Notebook环境_数据集_04

总体而言,如果您需要更具交互性的 Notebook 或与您的团队合作,Deepnote 是 Jupyter Notebook 的不错选择。 如果您需要,数据库集成和更高的环境规范也在那里。 然而,它会花费你更多。

Kaggle

Kaggle 是所有初学者和专业数据科学家都应该关注的网站。 该网站以收集数据集和数据科学竞赛而闻名。 然而,Kaggle 还提供了一个可定制的笔记本环境,不需要设置,并且可以在浏览器中使用,最关键的是还有每周40小时的V100和TPU V3可以免费使用。

3 个可以薅羊毛的在线 Jupyter Notebook环境_数据集_05

上面的图片是当你创建新笔记本时的默认显示。Kaggle笔记本提供了许多功能,我将解释其中的一些功能。

3 个可以薅羊毛的在线 Jupyter Notebook环境_python_06

首先,我们可以看到右侧的Data选项卡。在这里,您可以输入任何想要分析的数据或获得分析结果。此外,由于Kaggle是一个存储数百万数据集的地方,您可以通过这个选项卡访问Kaggle数据。

3 个可以薅羊毛的在线 Jupyter Notebook环境_数据_07

如上图所示,您可以添加Kaggle存储库中可用的数据,也可以从自己的存档中添加数据。此外,Kaggle可以处理大数据问题,而不需要你将数据存储在自己的硬件或支付额外的云存储费用,而且你仍然可以快速分析数据。

Datalore

Datalore是一个带有自动编码帮助的浏览器内在线笔记本。它的目的为了在云中执行所有代码,而无需在笔记本电脑上设置任何特殊的东西。你唯一需要做的就是在网站上注册并准备好使用它。

类似于我之前提到的替代方案,如果它在云中,您可以更改处理规范,尽管Datalore将需要额外的支付;然而,我觉得默认的4 GB RAM对个人来说应该足够了。

3 个可以薅羊毛的在线 Jupyter Notebook环境_数据科学家_08

Datalore的Notebook UI很简单,对于任何来自木星笔记本的人都可以轻松地使用Datalore。你可以看到下图中的示例。

3 个可以薅羊毛的在线 Jupyter Notebook环境_python_09

Datalore可以帮助你轻松地完成代码,特别是在使用Python包中的某个函数时。

3 个可以薅羊毛的在线 Jupyter Notebook环境_数据_10

在Datalore中创建的任何笔记本都可以与同事共享,以便共同工作。

对我来说,Datalore是一个轻量级、简单的笔记本,如果您喜欢自动编码辅助功能,您可以使用它。这是很有帮助的,特别是对于初学者。

总结

最后我们还要提到另外一个非常好用的环境,那就是colab

3 个可以薅羊毛的在线 Jupyter Notebook环境_机器学习_11

我个人认为google的colab是最好的在线Jupyter Notebook环境了,它不仅可以免费试用TPU和V100,当然也可能会分配到K80,而且还可以连接driver作为数据的存储(我觉得连接的步骤很繁琐),但是因为某些原因我们不能访问它,所以在这里就没有详细的介绍,如果能访问的话还是推荐第一个使用他。

的存储(我觉得连接的步骤很繁琐),但是因为某些原因我们不能访问它,所以在这里就没有详细的介绍,如果能访问的话还是推荐第一个使用他。