最近团队在做代码移植,将C++代码用scala实现服务端的矩阵算法,做到最后一步发现C++的文件压缩是直接调用python脚本来实现的,本着一致性的原则,文件压缩也用scala来实现。但是测试的时候发现,这个压缩效率跟调用python执行相差太大了,2G的txt格式文件,用scala实现压缩用了将近200秒,但是用python只需要大约40秒,有点接受不了,反正团队最近的故事也很少,于是研究了一下。
其实,scala调用python脚本是非常简单,首先导入包
import scala.sys.process._
然后只需要执行一行命令即可:
"python /home/test.py args" ! //test.py是需要执行的Python脚本,args:Python需要的参数
这条命令是可以直接在安装scala环境下执行的
但是,现在出现了一个问题,因为上面的python脚本要加上路径,而我们的工程所有的资源都要打包成 jar 放在 集群环境执行的。那么,我们这个这个脚本应该放在哪里才能让python 找到来解析执行呢?想了两种解决方案
第一,脚本跟jar包分离,给一个固定的路径,然后在命令中将路径写死。这样的话,需要另外安装脚本来上次这个压缩脚本,而且,发布版本涉及的工程太多了,不同部门不同团队的,而且自己也不了解发布涉及的所有安装脚本。搞不好这个功能分分钟出问题啊,这种方法是不可行的。
第二,将这个脚本放在我们团队的工程下面,跟随其他代码一块打包,这样的话就比较容易控制了。但是,打包成 jar 后,Python是解析不到 jar 里面的文件的。思考了一下,找到了一种方法:
在代码中,找到脚本在 jar里面的位置,然后将文件流读取出来,写到一个本地的路径下,这样,python解析器就能找到脚本的位置啦。貌似可以,于是立马敲代码验证:
上代码:
def CompressFiles(){
val fileInjar = "/CompressFile.py" //打包后,可以查看这个脚本在jar的相对路径(我的是存放在根目录)
val in = this.getClass.getResourceAsStream(fileInjar) //获取脚本InputStream
//获取jar所在的集群路径
val jarPath = this.getClass.getProtectionDomain.getCodeSource.getLocation.getPath.replace("\\","/")
val pyDir = jarPath.substring(0,jarPath.lastIndexOf("/"))+"CompressFile.py"
if(in != null){
val f = new File(pyDir)
if (!f.exists()) f.mkdirs
val localFile = pyDir +"CompressFile.py"
val out = new FileOutputStream(localFile)
val buf = new Array[Byte](1024)
try {
var nLen = in.read(buf)
while(nLen != -1){
out.write(buf,0,nLen)
nLen = in.read(buf)
}
}catch {
case e:Exception => log.error(e.getMessage)
case _ => log.error("Read CompressFile.py Exception")
}finally{
in.close
out.close
}
//以上代码便可以将jar里面的脚本写入到了jar包所在集群里面的某台机器的本地路径了,这就爽了,
//Python可以找到脚本解析啦啦啦啦,,这样只要把scala那条命令执行就行了
val para = "args"
s"python $localFile $para" ! //para参数
}else{
log.error("a NULL error occurred when Read CompressFile.py in jar,maybe the path is invalid!")
}
}
至此,调用完成。