- 1. 如何使用自定义版本或与集群安装版本不一致的框架执行作业?
1. 如何使用自定义版本或与集群安装版本不一致的框架执行作业?
在XLearning客户端提交作业时,可通过—file
、—cacheFile
或—cacheArchive
指定框架对应版本、依赖库等文件,并根据需求在运行脚本中指定PYTHONPATH环境变量,如export PYTHONPATH=./:$PYTHONPATH
。用户可以此来使用自己所需的框架版本或依赖库,而不受限于计算机器所提供的依赖环境。例如,若集群未事先装有tensorflow模块,可利用cacheArchive参数特性进行配置,方法如下:
- 进入本地tensorflow模块安装所在的目录,如:
/usr/lib/python2.7/site-packages/tensorflow/
- 将路径内的所有文件记性打包,如:
tar -zcvf tensorflow.tgz ./*
- 上传该压缩包至hdfs,如放置在hdfs的
/tmp/tensorflow.tgz
- xlearning提交脚本中,添加cacheArchive参数,如:
—cacheArchive /tmp/tensorflow.tgz#tensorflow
- 在launch-cmd中所执行的脚本中,添加环境变量设置:
export PYTHONPATH=./:$PYTHONPATH