互联网服务GPU

如何高效的GPU资源复用?

非训练场景下,测试环境如果只有少量的GPU卡,该如何进行GPU资源的复用(包括算力与显存)?

参与14

3同行回答

daliudaliu系统架构师某金融机构
这就是典型的GPU共享场景,可以利用GPU虚拟化技术将测试环境资源进行池化,技术方案有很多:1、硬件厂商方案,可以根据GPU厂商选择厂商提供方案,如Nvidia vGPU,AMD MxGPU,intel GVT-g,后两家都已经开源2、采用头部云厂商方案,如阿里云 cGPU、 腾讯云 qGPU、 Vmware Bitfusion...显示全部

这就是典型的GPU共享场景,可以利用GPU虚拟化技术将测试环境资源进行池化,技术方案有很多:
1、硬件厂商方案,可以根据GPU厂商选择厂商提供方案,如Nvidia vGPU,AMD MxGPU,intel GVT-g,后两家都已经开源
2、采用头部云厂商方案,如阿里云 cGPU、 腾讯云 qGPU、 Vmware Bitfusion等
3、第三方厂商,如OrionX
以上方案都支持算力和显存切分,不过都依赖厂商方案,如果用K8S的开源插件,只能实现按卡粒度的分配,看是否满足要求

收起
银行 · 2023-04-24
浏览653
dengjf99dengjf99课题专家组软件开发工程师某股份制银行
在模型推理的场景,如果没有GPU管理功能的K8S云平台支持,一个模型实例需要占用一张GPU卡。为了提高并行度,我们的经验是使用NVidia的Triton技术来实现一卡多实例的模型部署。显示全部

在模型推理的场景,如果没有GPU管理功能的K8S云平台支持,一个模型实例需要占用一张GPU卡。为了提高并行度,我们的经验是使用NVidia的Triton技术来实现一卡多实例的模型部署。

收起
银行 · 2023-04-26
浏览609
英伟达vGPU和Operator插件在hypervisor和k8s平台均可以实现GPU的切分和多卡复用的能力,具体可以参考Overview — NVIDIA Cloud Native Technologies documentation 目前这两个组件都已经包含到NVAIE软件套件中。显示全部

英伟达vGPU和Operator插件在hypervisor和k8s平台均可以实现GPU的切分和多卡复用的能力,具体可以参考Overview — NVIDIA Cloud Native Technologies documentation 
目前这两个组件都已经包含到NVAIE软件套件中。

收起
互联网服务 · 2023-04-25
浏览662

ChatGPT 回答

在非训练场景下,如果测试环境只有少量的GPU卡,可以考虑以下几种方式进行GPU资源的复用:

  1. 分时复用:将GPU卡的时间分配给不同的任务使用。例如,将一块GPU卡的时间分为若干个时间段,分别分配给不同的测试任务使用。这种方式可以最大化地利用GPU资源,但需要对任务的时间进行合理规划和分配。
  2. 空间复用:将GPU卡的显存分配给不同的任务使用。例如,将一块GPU卡的显存分为若干个空间,分别分配给不同的测试任务使用。这种方式可以最大化地利用GPU卡的显存,但需要对任务的显存需求进行合理规划和分配。
  3. 混合复用:将GPU卡的时间和显存同时分配给不同的任务使用。例如,将一块GPU卡的时间和显存分为若干个时间段和空间,分别分配给不同的测试任务使用。这种方式可以最大化地利用GPU资源和显存,但需要对任务的时间和显存需求进行合理规划和分配。

需要注意的是,GPU资源的复用需要考虑任务之间的相互影响和冲突,避免不同任务之间的竞争和干扰,影响测试结果的准确性和可靠性。因此,在进行GPU资源复用时,需要对任务进行合理规划和调度,确保任务之间的协调和平衡。

提问者

haoyunpeng
其它sscc
擅长领域: 服务器GPU

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2023-04-20
  • 关注会员:4 人
  • 问题浏览:1305
  • 最近回答:2023-04-26
  • X社区推广