首页
发现
标签
搜索
APP下载
注册
登录
首页
发现
榜单
标签
收录
APP下载
注册
登录
XLearning - 机器学习调度系统
文档评分:
77.1 (
0 个有效评分
)
文档语言:
中文
章节数量:
0
阅读人次:
12750
收藏数量:
0
整理分享:
管理员
阅读
收藏
下载
分享
阅读
收藏
下载
分享
文档标签
框架
机器
系统
扩展性
兼容性
深度
多种
文档概述
XLearning是一款支持多种机器学习、深度学习框架的调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。
文档
目录
文档
评论 (
0
)
概览
简介
负载均衡
介绍
架构设计
功能特性
编译&部署指南
FAQ
运行示例
Authors
系统配置参数
联系我们
应用配置
Board服务配置
History配置
系统配置
Docker使用配置
MPI使用配置
基于HDFS的统一数据管理
运行提交参数
输入数据读取方式
输出数据保存方式
XLearning常见问题
1. 如何使用自定义版本或与集群安装版本不一致的框架执行作业?
2. 如何查看作业执行进度?
3. XLearning目前支持哪些分布式深度学习框架作业的提交,如何与单机模式区分?
5. 作业提交后,出现报错信息:java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/JobConf, 如何解决?
4. TensorFlow分布式作业如何设置ClusterSpec?
8. Tensorflow中,环境变量TF_CONFIG如何利用已知变量进行构建?
7. LightGBM分布式作业如何获取指定机器数目和本地端口号?
6. 示例中数据集来源于mnist
11. 作业提交后,出现报错信息:java.io.IOException: Cannot run program "tensorboard": error=2, No such file or directory, 如何解决?
10. 如何配置作业失败重试时内存自动扩充比例?
9. Hadoop2.6.4以下版本如何使用查看作业执行占用的CPU内存负载信息功能?
13.若存在用户自定义module于其他python文件中,如何处理?
12. 提交脚本中设置–conf xlearning.input.strategy或–input-strategy 为 PLACEHOLDER策略时,获取Worker角色对应各Container所分配的文件列表信息形式?
14.作业使用 TensorFlow Estimator 高级API中,建议采用直接操作hdfs的数据读取及模型输出模式。
16.目前TensorFlow提供有多种分布式策略供用户选择,并不局限于以往的ps架构,但仍旧需要各worker(或ps、estimator)之间的cluster信息。XLearning可通过设置 –conf xlearning.tf.distribution.strategy=true 来适配分布式策略高级API使用下的cluster构建。
15.Yarn 2.6&+ 版本中,提供有节点标签表达设置功能,XLearning可以通过指定配置项 xlearning.am.nodeLabelExpression、xlearning.worker.nodeLabelExpression、xlearning.ps.nodeLabelExpression 来对am、worker、ps各角色进行指定类型节点的提交。
17.MPI类型作业提交前,需要
18.如何以Docker环境运行作业?
相关书籍
Apache Dubbo开发者指南
PHP 多国语框架 快速指南
DoitPHP 开源PHP框架文档手册
phpGrace 文档手册
SpeedPHP手册教程
G-framework 在线手册
Phalcon7 内核开发手册
[中文]Apache Dubbo用户文档
MyBatis 3.4 参考文档中文版
JFinal 3.4 中文文档(JFinal 3.4教程手册)
Jboot v1.x 文档手册
Tornado中文文档
×
分享,让知识传承更久远
×
文档下载
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档