OneFlow 是什么?
OneFlow是开源的、采用全新架构设计,世界领先的工业级通用深度学习框架。
为什么是OneFlow?
分布式
训练全新体验,多机多卡如单机单卡
一样简单
完美契合一站式平台(k8s + docker)
原生支持超大模型
近零运行时开销、线性加速比
灵活支持多种深度学习编译器
自动混合精度
中立开放,合作面广
持续完善的算子集、模型库
文章目录
1 分布式训练2 OneFlow 的设计目标3 Actor 机制(一套简洁的机制解决几乎所有技术难题)4 SBP5 总结1 分布式训练
在 OneFlow 中您只需要简单的几行配置,OneFlow 框架内部会自动处理任务调度、资源并行等问题,因此,您并不需要特别改动网络结构和业务逻辑代码,就可以方便地使用分布式训练。
OneFlow 的分布式训练能力独树一帜,是 OneFlow 区别于其它框架的 最重要特性。
将介绍:
如何将单机程序修改为分布式程序
OneFlow 中节点概念及分工
OneFlow 分布式优势
采用去中心化的流水架构,而非