w8系统-Inspur AI集群管理系统AIStation一览

作为全球第三、中国第一大服务器厂家,Inspur在AI服务器领域不仅有着足够的投入,也获得了市场的丰厚回报。根据IDC 2019年中国AI服务器市场调查报告,Inspur占据了50.8%的市场份额,是排名第二的华为市场份额的2倍多。如果你有机会去参观国内Tier 1和Tier 2互联网公司的大型数据中心,相信你将会看到大量布署的Inspure GPU服务器机型。在本公众号不久前发布的一文中,更是对Inspur目前主力在售的8 GPU服务器机型进行了详细分析。

w8系统-Inspur AI集群管理系统AIStation一览

IDC 2019中国AI服务器市场状况

数据中心里大规模的AI训练和推理对计算资源有着极高的要求,会使用大量的GPU服务器构建AI计算集群。在单台AI服务器的基础上w8系统,如何实现AI计算集群的管理和资源分配,是对服务器厂家能力的一种考验。Inspur基于Kubernets开发的AIStation集群管理系统,为用户提供了对这一问题的解决方案,也进一步巩固了其在中国AI硬件基础架构市场上NO.1的地位。

虽然AIStation集群管理系统软件是Inspur在2019年才发布的产品,但AIStation里很多用于管理AI计算工作的软件工具已经存在了很长时间,AIStation是这些工具的汇总和优化提升。AIStation不仅可以管理使用AI计算集群的用户、群组和权限,还可以管理集群里数据的使用和存储、计算资源的分配和调度,以及对整个AI集群的监控。作为软件系统,AIStation不像硬件设备那样可以直观地看到内部结构。但通过AIStation软件界面的功能,我们能够更多地了解到Inspur在构建大规模AI计算集群方面的能力。

以管理员或用户身份登录AIStation,所获得的权限是不一样的。用户只能看到自己当前所拥有的资源和任务运行情况,而管理员能够看到整个AI集群的状态。虽然在下图示例中AI集群只有3个GPU节点,但AIStation实际上可以管理由成百上千个GPU节点构成的集群计算资源。

w8系统-Inspur AI集群管理系统AIStation一览

Inspur AIStation的管理员集群监控界面

一旦AIStation在后台运行起来,大多数日常的工作都可以通过Web GUI界面或脚本的方式进行。在管理AI集群的过程中,运维人员不仅可以从宏观上查看集群的运行状态,还可以深入到每个节点的底层,查看硬件的配置和负载的运行状况。

管理员在AIStation中对底层硬件的监控

随着需要管理的AI服务器数量的增多,管理员就需要在AIStation软件里创建不同的资源组,将其分配给AI训练、AI开发及混合型工作负载。管理员还可以给每个资源组设置不同的高级管理和资源配置属性。

w8系统-Inspur AI集群管理系统AIStation一览

管理员在AIStation中创建资源组

除了创建不同的资源组,管理员还可以创建用户和用户群组。不同用户所需的GPU、存储等资源都由管理员在Web界面上进行分配。由于AI计算集群会包含有大量的GPU、存储和CPU资源,这些资源显然不可能让少数用户给全部占满,因此管理员对不同用户进行的资源分配非常重要,可以使AI计算集群的资源得到充分的利用。在资源分配的过程中,管理员也可以设置不同用户工作任务的优先级,从而确保关键任务能够快速计算完成。这种系统管理能力正是AIStation的价值所在。

w8系统-Inspur AI集群管理系统AIStation一览

管理员在AIStation中创建用户群组并分配资源

在AIStation里,管理员的另一个重要任务是监控各项任务的运行状态。由于管理员较大的系统控制权限,可以帮助用户查看任务运行过程中出现的各类异常,帮助用户使其设计的深度神经网络能够更好地适配硬件性能。

w8系统-Inspur AI集群管理系统AIStation一览

管理员在AIStation中监控任务运行状态

在AIStation的Dashboard界面上,管理员还可以从整个集群的角度来进行系统监控,看到CPU、GPU和内存的占用情况。对于AI硬件基础设施提供商而言,这些数据的收集对于未来硬件系统的开发具有一定的指导意义。如果在AI集群上运行的各类深度神经网络占用了50% CPU、60% GPU和95%的内存资源,那显然下一代产品上应该要想办法大幅增加内存资源。

Inspur AIStation的Dashboard界面

管理员在AIStation中不仅可以监控正在运行的任务,也可以监控已经完成的任务。对于未能成功结束的任务,通过对报错信息的分析,管理员可以从中寻找到系统进一步优化的方向。

管理员在AIStation中对运行任务的管理

相比于管理员,普通用户在AIStation管理软件里的权限虽然会比较小,但这有助于用户聚焦在自己的AI训练/推理任务上。在AIStation普通用户的Dashboard界面上,用户可以看到自己所拥有的资源及资源被占用情况。

Inspur AIStation中普通用户的Dashboard界面

Inspur AIStation里集成了NVIDIA GPU Cloud上不同AI训练框架的镜像,可以方便用户开始自己的AI模型训练。同时,AIStation也能够集成用户自己的AI模型镜像。管理员可以通过public或private视图对这些镜像文件进行区分,从而将一些敏感文件提供给特定的用户或群组。

w8系统-Inspur AI集群管理系统AIStation一览

普通用户在AIStation里可以获得的AI框架镜像

AI模型训练最重要的就是数据集,由于AI集群上会有大量用户存在,如何做好不同用户数据集的管理和访问权限控制,是AIStation需要重点解决的问题。通过对数据集设置不同的权限,用户只能用具有权限的数据来训练自己的神经网络模型。

Inspur AIStation对数据集的管理

AIStation管理软件里集成了notebook等编辑软件,可以在web界面上对python脚本进行直接编辑和保存,方便用户在运行程序过程中的代码修改。

Inspur AIStation集成了脚本编辑功能

一旦用户启动了神经网络模型的训练过程,整个训练过程在AIStation里就可以通过可视化的方式显示出来。通常一个深度神经网络的训练过程从几个小时到几天不等,可视化的训练过程可以让用户直观地了解到训练的阶段和训练的效果。

w8系统-Inspur AI集群管理系统AIStation一览

Inspur AIStation对训练过程的可视化显示

和很多其它的系统管理软件一样,AIStation还有很多系统控制、预警、监控的功能,在这里就不一一赘述,用户在使用的过程中会逐步感受到Inspur AIStation的强大功能。

根据Inspur的介绍,自2019年4月正式发布AIStation以来,AIStation的销售额已经达到700万美元。对于一款发布仅仅一年的纯软件而言,这一销售数字还是相当不错的。AIStation的License是以GPU节点为单位来售卖的,Inspur为AIStation提供了3年的License有效期,到期后需要重新购买软件服务费用,从而升级软件和License。

值得注意的一点是,Inspur表示AIStation不仅仅只支持Inspur自己的GPU服务器,也支持其它厂家的GPU服务器。虽然目前AIStation只支持NVIDIA的GPU卡,但未来AIStation将会支持各个厂家的AI加速模块,并对异构的AI加速资源实现调度、监控和管理。我们知道,并且在开发自己的模块。考虑到Inspur与Intel的密切合作关系,一旦Intel推出这些产品,Inspur AIStation也必然会实现对其的支持。

总 结

AI是未来十年科技企业必争的一个战场。如果只做AI硬件系统提供商,随着AI硬件的逐步标准化,这一市场的竞争只会越来越激烈、利润越来越薄。对于Inspur而言,要保持中国AI市场NO.1的地位w8系统,在提供高质量AI硬件系统的同时,也需要提供自有的AI集群控制软件,从而增加自身在AI软硬件融合方面的实力,并增加用户的黏性。不光是Inspur,这应该是所有提供AI硬件基础设施厂商未来的发展方向。

限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信/QQ: 55022437