专题演讲嘉宾 :李远策

奇虎 360 技术经理

2013 年加入奇虎 360,先后参与公司 Hadoop、Spark 、深度学习等平台的建设,历经公司 Hadoop 平台高速发展及、Spark 平台从无到大规模实践及深度学习平台的落地。曾主持 SparkSQL 索引、{MPI/TensorFlow/Caffe} on Yarn 等多个项目。工作中专注于解决平台中的各种 Bug 及用户遇到的各类问题,爱好开源,乐于学习和分享。目前主要关注 大数据索引、大数据+深度学习等领域。

演讲:TensorFlow on Yarn:深度学习遇上大数据

时间:04月17日 11:45
地点:306A
所属专题:TensorFlow 技术与应用

TensorFlow 的开源大幅降低了深度学习的门槛并极大推动了深度学习在众多公司的落地。但是,建设深度学习平台更多还需要关注多租户管理、资源隔离、作业管理等。除此之外,在大数据时代训练数据大多存储在以 HDFS 为代表的分布式储存系统中。所以,直接存取 HDFS 也是必不可少的功能。基于以上考虑,我们设计了 TensorFlow on Yarn,实现了深度学习与大数据平台的整合。归纳而言,TensorFlow on Yarn 主要有以下功能和特点:

  1. 作为一种新定义的计算类型,借助 Yarn 实现资源隔离和作业的管理;
  2. 增强了 Yarn 对 GPU 资源的管理和调度,能做到以 GPU 卡作为资源申请单元;
  3. 支持训练数据直接从 HDFS 读取,训练模型保存到 HDFS;
  4. 兼容原生 TensorFlow 的代码,已有的代码稍作修改即可迁移到 Yarn;
  5. 性能和训练效果跟原生 TensorFlow 保持一致。

除了 TensorFlow on Yarn 外,会向大家一并介绍下我们更早设计的 SparkFlow(TenrsorFlow 与 Spark 的结合),以及整合更多计算框架到 Yarn 的思考。

听众受益

  1. 如何建设完善深度学习平台;
  2. 当深度学习遇到大数据会给我们带来哪些挑战和机遇;
  3. 深度学习跟大数据整合的思路。

本专题下其他演讲

关注主办方(InfoQ)

InfoQ Qcon

交通指南