10月30, 2020

vivo AI计算平台在线业务落地实践

一、背景

vivo人工智能计算平台小组从2018年底开始建设 AI 计算平台至今,已经在k8s集群、以及离线的深度学习模型训练等方面,积累了众多宝贵的开发、运维经验,并逐步打造出稳定的基础容器平台 - AI容器平台(VContainer)。为了支撑公司AI在线业务的发展,满足公司对算力资源的高效调度管控需求,需要将在线业务,主要包括C端、推理等业务,由原来的虚拟机或物理机迁移至AI容器平台。于是小组从2020年初开始,基于在线业务的需求对AI容器平台进行进一步建设,并将平台与公司的CMDB、CICD等基础模块进行打通,使在线业务能够顺利从虚拟机、物理机迁移至AI 容器平台。

目前AI容器平台已迁移了4成左右的AI在线业务,大大小小100+在线应用,流量峰值超过22w qps,数百台服务器支撑着在线业务容器的运行。

本文是 vivo AI 计算平台技术演进系列文章之一,着重分享了计算平台的底座 - AI容器平台(VContainer)的在线业务容器化落地过程中所遇到的问题及解决的思路,vivo AI  计算平台相关的技术实践可参考此前发布的《vivo AI 计算平台的K8s填坑指南》。

二、容器化部署的优点

与虚拟机或物理机的部署相比,将业务部署到AI容器平台有很多优点:

• 容器平台可以统一对算力资源进行管控、调度,解决了机器资源分散、闲置、难以维护等问题

点击查看原文>

本文链接:https://blog.jnliok.com/post/zKhOwJvTSrLlOCEc0c5N.html

-- EOF --

Comments