1、首先是安装python版本
python的安装可以有两种方式,一种是先安装纯金版的python然后根据自己代码的需要再去用pip对应安装其他的依赖包,当然这首先要求安装pip包;第二种方式是安装与python相对应的Anaconda,Anaconda的好处是除了安装对应版本的python之外还附带了很多第三方依赖包,一些比较常见的依赖基本可以满足,可以省去安装完纯净python版本之后还要手动去安装运行所需要的依赖,确认好对应关系直接去官网下载然后一路下一步安装即可,对应算法人员要求的python3.6.0版本我安装的Anaconda版本是Anaconda3-4.3.1-Windows-x86_64版本。下载完毕后上传到linux目录下,如下图
说下具体安装,直接在这个路径下
直接回车/yes一路操作下来即可,注意这里面有的版本会问你是否安装vscode这个要说:no!
2、pip手动安装依赖包
上面安装完成anaconda之后,它会附带一些依赖包,但是如果还不够的话我们需要自己手动安装依赖,这个时候就用pip命令如下
pip install 是安装命令后面跟的是依赖包及其版本当然也可以不加==版本号也可以装,这样应该是最新版本吧,在后面 -i 指定的是镜像的代理路径,默认是国外的比较慢,再后面是代理ip及端口,最下方提示successfully即为成功。
3、安装环境的批量复制转移
假如说我们现在有一台机子已经安装的很完美了,各种依赖包都齐全了,现在需要做个分布式集群,需要将这台机子的信息同步配置其他的多台机子,这时候怎么扩容比较快捷?
首先是去需要扩充的机子上面按照第1步去安装anaconda,然后用 pip freeze > requirements.txt这样就会把所有环境中的依赖包列表导出,导出文件存放路径为执行命令的路径,文件名字为requirements.txt这个名字是自定义的。导出后的文件如下图:
然后去扩容的机子上再执行如下命令即可按照此文件去自动安装
通过 -r参数指定文件,当前前提是将此txt文件传到执行命令的目录下
刚开始接触pyspark与python,如有问题,欢迎大家留言指出多谢~