2013 年加入奇虎 360,先后参与公司 Hadoop、Spark 、深度学习等平台的建设,历经公司 Hadoop 平台高速发展及、Spark 平台从无到大规模实践及深度学习平台的落地。曾主持 SparkSQL 索引、{MPI/TensorFlow/Caffe} on Yarn 等多个项目。工作中专注于解决平台中的各种 Bug 及用户遇到的各类问题,爱好开源,乐于学习和分享。目前主要关注 大数据索引、大数据+深度学习等领域。
TensorFlow 的开源大幅降低了深度学习的门槛并极大推动了深度学习在众多公司的落地。但是,建设深度学习平台更多还需要关注多租户管理、资源隔离、作业管理等。除此之外,在大数据时代训练数据大多存储在以 HDFS 为代表的分布式储存系统中。所以,直接存取 HDFS 也是必不可少的功能。基于以上考虑,我们设计了 TensorFlow on Yarn,实现了深度学习与大数据平台的整合。归纳而言,TensorFlow on Yarn 主要有以下功能和特点:
除了 TensorFlow on Yarn 外,会向大家一并介绍下我们更早设计的 SparkFlow(TenrsorFlow 与 Spark 的结合),以及整合更多计算框架到 Yarn 的思考。