Google 正式整合 Kubernetes 引擎与 GPU 服务

  

最近,Google Cloud Services 加强了与深度学习和机器学习应用程序相关的许多功能。 它首先扩展了虚拟主机的硬件规格,并推出了具有大容量内存的 ultramem 规格虚拟机,允许用户执行高性能计算,同时还实现了公共云平台。 GPU 和 TPU 也将在不久的将来上线。 企业可以以比按需服务更便宜的价格消费 GPU 和 TPU 资源。 这一次,Google 宣布公共云 GPU 服务现已正式与 Kubernetes Engine(GKE)集成。



目前,GCP 的 GPU 硬件共有三种选择,从入门级 K80 的价格到中级  P100和高端 V100,允许用户根据需要进行选择。 对于想要使用新功能的用户,Google 现在还提供 300 美元免费试用版。

在此版本发布之后,公司在 GKE 环境中运行的容器应用程序将能够使用 GPU 服务并执行 CUDA 工作负载。谷歌表示:“您可以利用 GPU 的强大处理能力,同时无需管理虚拟机的工作。”它可以与市场上正式推出的抢先式 GPU 服务一起使用。这将降低机器学习操作的成本。现在这个功能也已经与 Google CloudStack Monitoring Service Stackdriver 集成。用户可以观察 GPU 资源访问的当前频率,GPU 资源的可用性或 GPU 配置。

另外,在 Kubernetes 环境中使用 GPU 服务的公司也可以使用 Google Kubernetes 引擎的一些现有功能。像节点资源池功能一样,现有 Kubernetes 群集上的应用程序可以访问 GPU 资源。当企业应用程序的弹性发生变化时,您可以使用集群扩展功能。系统可以自动扩展内置 GPU 的节点。当基础设施中没有任何 Pod 需要访问 GPU 资源时,系统会自动关闭扩展节点。 GKE 还会确保节点上的 pod 是所有需要访问 GPU 资源的 pod,以避免将不具有 GPU 要求的 pod 部署到这些节点。系统管理员可以使用资源配额功能限制每个用户在多个团队共享大型群集时可以访问的 GPU 资源。


现在这个功能也已经与 Google 的云端监控服务 Stackdriver 集成。 用户可以观察 GPU 资源访问的当前频率,GPU 资源的可用性或 GPU 配置。

猜你喜欢

转载自www.oschina.net/news/97338/gpus-as-a-service-with-kubernetes-now-available