这次改的是用jupyterlab跑sparkonk8sjupyterlab本身是跑在k8s里面的,然后甲方因为无论开多大内存,无论用vaex还是pandas都会内存溢出,所以打算用sparkonk8s方式跑,认为这样就不会溢出了,当然,实际上还是会溢出的。如何搭建sparkonk8s就不说了,官网就有教程。只说一下改造思路。这里有两个难点,一个是sparkkernel的创建,因为有人用spark,
这篇文章记录一下基于 jupyterlab做自定义接口和插件的二次开发过程和关键点目前我们给甲方提供的机器学习平台是基于k8s + jupyterlab实现的, 这样的好处是数据科学家可以在一个相对隔离的环境里开发自己的数据应用, 但是缺点是每个人之间无法共享自己开发的脚本给其他人. jupyter生态并不提供这样的功能, hub这种多用户系统也没有. 所以我们的思路是用第三方云存储来实现文件的共
很久没有写博客了, 这两年搞hadoop集群搞的少了, 总觉得没啥可写的. 最近因为业务需要, 在k8s和jupyter上面做了不少二次开发, 除了之前写的乱七八糟记录, 打算把一些阅读源码的经验和二次开发的代码记录一下. 内容可能包括之前写的乱七八糟记录的内容, 整理一下, 写个系列.这篇先整理记录一下之前的kerberos整合.本身jupyterhub似乎提供krb的验证方法, 但是不太合适给
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号