思维导图备注

XLearning - 机器学习调度系统

首页下载阅读记录

我的书签
添加书签移除书签

Authors

浏览 945 扫码分享 2020-01-07 21:41:24

Authors

Authors

@Yuance Li, @Wen OuYang, @Runying Jia, @YuHan Jia, @Lei Wang

上一篇:

下一篇:

概览
简介
负载均衡
介绍
架构设计
功能特性
编译&部署指南
FAQ
运行示例
Authors
联系我们
系统配置参数
应用配置
Board服务配置
History配置
系统配置
Docker使用配置
MPI使用配置
基于HDFS的统一数据管理
运行提交参数
输入数据读取方式
输出数据保存方式
XLearning常见问题
1. 如何使用自定义版本或与集群安装版本不一致的框架执行作业？
2. 如何查看作业执行进度？
3. XLearning目前支持哪些分布式深度学习框架作业的提交，如何与单机模式区分？
4. TensorFlow分布式作业如何设置ClusterSpec？
5. 作业提交后，出现报错信息：java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/JobConf, 如何解决？
8. Tensorflow中，环境变量TF_CONFIG如何利用已知变量进行构建？
7. LightGBM分布式作业如何获取指定机器数目和本地端口号？
6. 示例中数据集来源于mnist
9. Hadoop2.6.4以下版本如何使用查看作业执行占用的CPU内存负载信息功能？
10. 如何配置作业失败重试时内存自动扩充比例？
11. 作业提交后，出现报错信息：java.io.IOException: Cannot run program "tensorboard": error=2, No such file or directory, 如何解决？
12. 提交脚本中设置–conf xlearning.input.strategy或–input-strategy 为 PLACEHOLDER策略时，获取Worker角色对应各Container所分配的文件列表信息形式？
13.若存在用户自定义module于其他python文件中，如何处理？
14.作业使用 TensorFlow Estimator 高级API中，建议采用直接操作hdfs的数据读取及模型输出模式。
16.目前TensorFlow提供有多种分布式策略供用户选择，并不局限于以往的ps架构，但仍旧需要各worker（或ps、estimator）之间的cluster信息。XLearning可通过设置 –conf xlearning.tf.distribution.strategy=true 来适配分布式策略高级API使用下的cluster构建。
15.Yarn 2.6&+ 版本中，提供有节点标签表达设置功能，XLearning可以通过指定配置项 xlearning.am.nodeLabelExpression、xlearning.worker.nodeLabelExpression、xlearning.ps.nodeLabelExpression 来对am、worker、ps各角色进行指定类型节点的提交。
17.MPI类型作业提交前，需要
18.如何以Docker环境运行作业？

暂无相关搜索结果！

本文使用 EduBoo.COM 构建

展开/收起文章目录

分享，让知识传承更久远

文章二维码

手机扫一扫，轻松掌上读

文档下载

请下载您需要的格式的文档，随时随地，享受汲取知识的乐趣！

PDF文档 EPUB文档 MOBI文档

书签列表

阅读记录

阅读进度: 0.00% ( 0/0 ) 重置阅读进度