3月25日,旷视科技正式发布AI生产力平台Brain++,并开源Brain++的核心组件——工业级深度学习框架天元 (MegEngine),降低AI开发者开发门槛。旷视联合创始人兼 CTO唐文斌表示,天元开源可让Brain++产生更大价值,为用户提供更完善的集成开发环境,将产品从实验室原型到工业部署原本数周或数月的时间缩至小时级。
开源35万行代码 囊括大多数应用场景
为了这次开源,旷视为天元做了一次全面升级。本次发布为Alpha版本,基于ApacheLi-cense2.0,共开源约35万行代码,包括C++、CUDA和Python代码,囊括了大多数应用场景。从技术角度来看,天元可分为五个层次:
最上面是计算接口层,向外连接了Python和C++接口,开发者可以通过Python和C++两种语言对整个框架进行使用和编程,以及系统的设计和研发、训练和推理;
接着是图表示层,包含了动态图和静态图的表示功能;
再往下是一个完整的一体化核心计算引擎,具有自动求导机制、图优化和图编译功能,有了这个层次就可以支撑起动态、静态和接口完整的功能;
在这个层次之下的运行时管理层由两个主要部分组成,一部分是计算调度,可以将计算设备抽象为执行流,由调度器对这些执行流进行合理调度,另一部分是一整套内存管理机制,包括静态内存和动态内存管理——这个模块内置了许多关于内存的高级优化,其中值得一提的是实现了静态亚线性内存的优化器,使得内存管理效率大幅提升;
最底层是支撑整个系统的核心计算内核层,其中包含一个高性能算子库,它支持常见的计算设备,包括X86、CUDA、ARM和专业计算芯片等——该层还包含一个高性能异构通信库,能够使得整个计算框架在分布式多结点上大规模应用,以支撑更大规模的训练。
实现 “深度学习、简单开发”
过去几年,旷视在研发过程中遇到了很多行业共通的痛点,据介绍,天元的核心特性就是围绕这些痛点展开的。
一是训练推理一体化。深度学习从研究到生产的流程非常复杂,各阶段模型精度往往很难对齐。而天元框架无需进行模型转换,可直接使用训练后得到的模型进行推理,保证训练速度和精度与推理一致;模型训练结束后,可保证跨设备的模型精度实现对齐;可内置自动模型优化过程,减少手工模型遇错处理,形成高效的研发体系。这样一来,AI真正落地要考虑的多端部署和在线服务问题就得以解决,大大减少了训练成本。
二是动静合一。静态图好部署,动态图易调试,但二者往往难以兼得。针对这个痛点,天元集成了两者优点,在充分利用动态图模型训练优势时,通过动静态一键转换功能,以静态图的形式完成生产部署。天元支持动静态的混合编程,灵活性更强。开发者可在动态过程中非常方便地进行原型研发和调试,同时可在生产环节借助静态图提速。测试中,静态提速往往可达5%~20%。
三是兼容并包。市场上很多框架的接口不同,需要重新进行模型实现,对一般开发者来说成本较高。而天元代码风格与Numpy、Py-Torch的写法非常相似,在函数命名风格和参数设计细节中尊重原有社区的传统。开发者可便利地将以往模块直接导入天元框架,和其它天元组件一起使用,更好地进行模型复现。另外,旷视在计算机视觉领域的一些独特积累也融入天元系统,让计算机视觉研发更简便。
四是灵活高效。AI生产企业可能面临很多设备和场景,需要在每种设备上实现极致性能。针对这一痛点,天元在许多设备、算法上都能得到领先性能。天元内置了一个高效的内存优化策略,可显著减少训练时的显存占用,在同类设备上训练更大模型,支持更多算法。天元还有很多内存和速度的优化机制,比如亚线性内存优化,在几乎不降低计算速度前提下,达到256Batch的训练能力。
借助以上四大特性,天元能够实现产品从实验室原型到工业部署的小时级转化能力、大规模弹性训练,并支撑研究团队进行最前沿的学术开发。这样,天元就做到了 “简单开发”,让开发者真正体验到 “训得好” “训得动” “训得快”。
发力AI新基建产品从实验室到工业部署可缩至小时级
天元是为工业级、研究院规模的研发机构设计的,其核心特性均用于解决研发过程中的痛点。对旷视本身,开源则是 “基于算法向产业方向升级、打造AI基础设施”战略的延伸。
唐文斌说,只有AI芯片平台和AI生产力平台能够被称为AI基础设施。其中,芯片平台能够承载AI计算,AI生产力平台可以释放生产算法的效能。天元全面开源可让AI生产力平台Brain++服务于更广大的开发者,产生更大社会价值。
何谓AI生产力平台?在唐文斌看来就是“为用户提供更完善的集成开发环境,满足AI开发者从AI生产 (输出算法模型)到应用 (实现算法工程化封装)各环节中,一站式、全流程算法研发的切实需求,将产品从实验室原型到工业部署原本数周或数月的时间成本,缩短到小时级。”
以制造企业为例,工厂在配电产品质量检测中可能出现零部件颜色搭配错误、字符印刷残缺等情况,靠人工目检效率低,靠机器视觉方案需要巨大投入。而通过Brain++这样的AI生产力平台,该制造企业可获得从专业咨询、数据生产、模型优化到私有化AI平台建设运维等服务,降本增效且自主安全。
在落地实践上,旷视数据管理平台MegDa-ta可实现从数据抽取、清洗、标注等全流程管理,再加上弹性算力共享平台MegCompute及深度学习框架MegEngine,可将深度学习算法研发的能力与方案直接部署到工厂,极大降低整体训练成本,满足产线上快速升级算法的要求。 (本报综合)