什么是阿里云GPU云服务器?GPU云服务器产品优势及应用场景介绍
GPU云服务器是阿里云的云服务器ECS产品之一,是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。本文为大家介绍阿里云GPU云服务器产品优势、应用场景以及阿里云GPU云服务器实例规格有哪些。https://upload-images.jianshu.io/upload_images/19316870-d94a7eb58211ada2.png
<div class="image-caption">gpu云服务器产品图.png
<h2>一、阿里云GPU云服务器产品简介</h2>
GPU云服务器提供了GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。其作为阿里云弹性计算家族的一员,结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求,例如,在并行运算方面,使用GPU云服务器可显著提高计算效率。
<h3>为什么选择GPU云服务器</h3>
阿里云GPU云服务器是基于GPU与CPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供比CPU高百倍的计算能力。GPU的功能特性如下:
[*]拥有大量擅长处理大规模并发计算的算术逻辑单元(Arithmetic and Logic Unit,即ALU)。
[*]能够支持多线程并行的高吞吐量运算。
[*]逻辑控制单元相对简单。
下表为您介绍GPU云服务器与自建GPU服务器的区别。
<table>
<thead>
<tr>
<th>对比项</th>
<th>GPU云服务器</th>
<th>GPU自建服务器</th>
</tr>
</thead>
<tbody>
<tr>
<td>灵活性</td>
<td>能够快速开通一台或多台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。</td>
<td>服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法自由升降。</td>
</tr>
<tr>
<td>易用性</td>
<td>Web在线管理,简单方便。内置主流的操作系统,Windows正版激活,且支持在线更换操作系统。GPU驱动可以在购买时一并安装,方便快捷。</td>
<td>没有在线管理工具,维护困难。需用户自备操作系统,自行安装及更换。GPU驱动需要自行购买安装。</td>
</tr>
<tr>
<td>容灾备份</td>
<td>三副本数据设计,单份损坏可在短时间内快速恢复。硬件故障事故中可快速自动恢复。</td>
<td>用户自行搭建,使用普通存储设备,价格高昂。数据损坏需用户修复。</td>
</tr>
<tr>
<td>安全性</td>
<td>能够有效阻止MAC欺骗和ARP攻击。并防护DDoS攻击,可进行流量清洗和黑洞。享有端口入侵扫描、挂马扫描、漏洞扫描等附加服务。</td>
<td>很难阻止MAC欺骗和ARP攻击。清洗和黑洞设备需要另外购买,价格昂贵。普遍存在漏洞挂马和端口扫描等问题。</td>
</tr>
<tr>
<td>成本</td>
<td>支持包年包月及按量付费两种购买方式,可灵活选择适合您业务场景的付费方式。按需购买,无需一次性大量投入。</td>
<td>无法按需购买,必须为业务峰值满配。一次性投入巨大,闲置浪费严重。</td>
</tr>
</tbody>
</table>
<h3>GPU实例规格族</h3>
实例是能够为您的业务提供计算服务的最小单位,不同的实例规格可以提供的计算能力也不同。根据业务场景和使用场景,ECS实例可以分为多种实例规格族。GPU实例属于ECS实例中的一类实例规格,GPU实例在提供GPU加速能力的同时,保留了与普通ECS实例一致的使用体验。在创建ECS实例时,请选择企业级异构计算规格族群、弹性裸金属服务器和超级计算集群(SCC)实例规格族群下的GPU实例规格即可。
<h3>产品优势</h3>
[*]
覆盖范围广阔
阿里云GPU云服务器在全球17个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。
[*]
超强计算能力
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。
[*]
网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。
[*]
购买方式灵活
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。
同时,阿里云也提供了神行工具包搭配GPU云服务器一起使用,神行工具包具有GPU计算服务增强能力,可以帮助您更方便、更高效地使用阿里云的云上GPU资源。
<h3>产品计费</h3>
GPU云服务器的计费相关功能和云服务器ECS一致,其中,计算资源(vCPU、内存以及GPU)、镜像、块存储、公网带宽以及快照等资源涉及计费。
常见的计费方式如下所示:
[*]包年包月:按一定时长购买资源,先付费后使用。
[*]按量付费:按需开通和释放资源,先使用后付费。
[*]抢占式实例:通过竞价模式抢占库存充足的计算资源,相对按量付费实例有一定的折扣,但是存在回收机制。
[*]预留实例券:搭配按量付费实例使用的抵扣券,承诺使用指定配置的实例(包括实例规格、地域可用区等),以折扣价抵扣计算资源的账单。
[*]节省计划:搭配按量付费实例使用的折扣权益计划,承诺使用稳定数量的资源(以元/小时为单位衡量),以折扣价抵扣计算资源、系统盘等资源的账单。
存储容量单位包:搭配按量付费存储产品使用的资源包,承诺使用指定容量的存储资源,以折扣价抵扣块存储、NAS、OSS等资源的账单。
<h3>关联工具包</h3>
阿里云提供神行工具包供您更高效地使用GPU资源,神行工具包中的组件主要包括以下工具:
<table>
<thead>
<tr>
<th>工具名称</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td>神龙AI训练加速引擎AIACC-Training(AIACC训练加速)</td>
<td>阿里云自研的分布式训练任务AI加速器,可以显著提升训练性能。</td>
</tr>
<tr>
<td>神龙AI推理加速引擎AIACC-Inference(AIACC推理加速)</td>
<td>阿里云自研的推理AI加速器,可以显著提升推理性能。</td>
</tr>
<tr>
<td>AI加速器Deepytorch</td>
<td>阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能。</td>
</tr>
<tr>
<td>什么是AI通信加速库Deepnccl</td>
<td>阿里云开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。</td>
</tr>
<tr>
<td>什么是推理引擎DeepGPU-LLM</td>
<td>阿里云开发的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中为您提供高性能的大模型推理服务。</td>
</tr>
<tr>
<td>AI分布式训练通信优化库AIACC-ACSpeed</td>
<td>阿里云推出的AI分布式训练通信优化库。可实现分布式训练在兼容性、适用性和性能加速等方面的升级。</td>
</tr>
<tr>
<td>计算优化编译器AIACC-AGSpeed</td>
<td>阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器,可以实现无感的计算优化功能。</td>
</tr>
<tr>
<td>GPU容器共享技术cGPU</td>
<td>阿里云基于内核虚拟GPU隔离的容器共享技术,隔离GPU资源,实现多个容器共用一张显卡。</td>
</tr>
<tr>
<td>集群极速部署工具FastGPU</td>
<td>阿里云推出的人工智能计算任务构建工具,提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。</td>
</tr>
</tbody>
</table>
<h2>二、GPU实例规格族有哪些?</h2>
主要包括GPU计算型、GPU虚拟化型和异构服务型。
<h3>GPU计算型</h3>
GPU计算型实例具有高性能、高并行计算能力,适用于大规模并行计算场景,可以为您的业务提供更好的计算性能和效率。下面是目前属于阿里云GPU计算型实例规格的具体实例。
[*]GPU计算型实例规格族gn7e
[*]GPU计算型实例规格族gn7i
[*]GPU计算型实例规格族gn7s
[*]GPU计算型实例规格族gn7
[*]GPU计算型实例规格族gn7r
[*]GPU计算型实例规格族gn6i
[*]GPU计算型实例规格族gn6e
[*]GPU计算型实例规格族gn6v
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn7ex
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn7e
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn7ix
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn7i
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn7
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn6ia
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn6e
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn6v
[*]GPU计算型弹性裸金属服务器实例规格族ebmgn6i
[*]GPU计算型超级计算集群实例规格族sccgn7ex
[*]GPU计算型超级计算集群实例规格族sccgn6e
[*]GPU计算型超级计算集群实例规格族sccgn6
[*]GPU计算型实例规格族gn5
GPU计算型实例规格族gn5i
<h3>GPU虚拟化型</h3>
下面是目前属于阿里云GPU虚拟化型实例规格的具体实例。
[*]GPU虚拟化型实例规格族sgn7i-vws(共享CPU)
[*]GPU虚拟化型实例规格族vgn7i-vws
[*]GPU虚拟化型实例规格族vgn6i
[*]GPU虚拟化型实例规格族vgn5i
<h3>异构服务型</h3>
云服务器ECS异构服务型实例video-trans适用于视频转码、图像与视频内容处理以及帧图像提取等场景。
video-trans特点
[*]提供专属硬件资源和物理隔离
[*]高密度转码,例如显示格式1080P、帧速率30 FPS、编码格式HEVC时,硬件支持84路码流
[*]支持主流H.264、H.265码流,分辨率最大支持8192*4096
[*]面向视频转码应用配备了ASIC转码专用加速器,大幅提升转码速度并降低成本
[*]处理器:2.5 GHz主频的Intel ? Xeon ? Platinum 8269CY(Cascade Lake),睿频3.2 GHz,计算性能稳定
[*]适用场景:
视频格式、码流转换
图像与视频内容处理
图像识别前的帧图像提取
<h2>三、阿里云GPU云服务器的产品优势</h2>
1.超强计算能力
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达5PFLOPS的混合精度计算性能。
2.网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持2400万的PPS及160Gbit/s的内网带宽。
3.购买方式灵活
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。
<h2>四、阿里云GPU云服务器的应用场景</h2>
GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。
<h3>GPU云服务器应用场景</h3>
1.直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:
[*]GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。
[*]GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。
2.AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:
[*]gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。
[*]实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
[*]实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。
3.AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:
[*]gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。
[*]单卡功耗仅75 W,具有极高的性能功耗比。
[*]实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
[*]实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
[*]镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。
4.云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。
<h3>神行工具包(DeepGPU)应用场景</h3>
神行工具包中的组件主要包括神龙AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,该工具主要适用于AI训练和AI推理场景。
<h2>五、阿里云GPU云服务器的基本概念</h2>
下面是使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。
<h3>GPU云服务器相关概念</h3>
<table>
<thead>
<tr>
<th>概念</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td>GPU</td>
<td>图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。</td>
</tr>
<tr>
<td>CUDA</td>
<td>NVIDIA推出的通用并行计算架构,帮助您使用NVIDIA GPU解决复杂的计算问题。</td>
</tr>
<tr>
<td>cuDNN</td>
<td>NVIDIA推出的用于深度神经网络的GPU加速库。</td>
</tr>
<tr>
<td>DeepGPU</td>
<td>阿里云专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集合。</td>
</tr>
<tr>
<td>AIACC-Taining</td>
<td>阿里云自研的分布式训练任务AI加速器,可以显著提升训练性能。</td>
</tr>
<tr>
<td>AIACC-Inference</td>
<td>阿里云自研的推理AI加速器,可以显著提升推理性能。</td>
</tr>
<tr>
<td>AIACC-ACSpeed</td>
<td>阿里云推出的AI分布式训练通信优化库。可实现分布式训练在兼容性、适用性和性能加速等方面的升级。</td>
</tr>
<tr>
<td>AIACC-AGSpeed</td>
<td>阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器。可以实现无感的计算优化功能。</td>
</tr>
<tr>
<td>FastGPU</td>
<td>阿里云推出的人工智能计算任务构建工具。提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。</td>
</tr>
<tr>
<td>cGPU</td>
<td>阿里云基于内核虚拟GPU隔离的容器共享技术。隔离GPU资源,实现多个容器共用一张显卡。</td>
</tr>
</tbody>
</table>
<h3>ECS通用概念</h3>
<table>
<thead>
<tr>
<th>概念</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td>ECS实例</td>
<td>云上的虚拟计算服务器,内含vCPU、内存、操作系统、网络、磁盘等基础组件。</td>
</tr>
<tr>
<td>ECS实例规格</td>
<td>定义了ECS实例在计算性能、存储性能、网络性能等方面的基本属性,但需要同时配合镜像、块存储、网络等配置才能确定一台ECS实例的具体服务形态。</td>
</tr>
<tr>
<td>镜像</td>
<td>提供了运行实例所需的信息,包括操作系统、初始化应用数据等。</td>
</tr>
<tr>
<td>公共镜像</td>
<td>阿里云官方提供的基础镜像,均已获得正版授权,涵盖Windows Server系统镜像和主流的Linux系统镜像。</td>
</tr>
<tr>
<td>Alibaba Cloud Linux</td>
<td>阿里云官方操作系统,为云上应用程序提供安全、稳定、高性能的定制化运行环境,并进行了针对性的深度优化,更加适合阿里云基础设施。</td>
</tr>
<tr>
<td>自定义镜像</td>
<td>您自行创建或导入的镜像,包含了初始系统环境、应用环境、软件配置等信息,可以节省重复配置的时间。</td>
</tr>
<tr>
<td>块存储</td>
<td>高性能、低时延的块设备,像物理硬盘一样分区格式化并创建文件系统后使用,满足大部分通用业务场景下的数据存储需求。</td>
</tr>
<tr>
<td>云盘</td>
<td>数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999?数据可靠性保证。</td>
</tr>
<tr>
<td>本地盘</td>
<td>ECS实例所在物理机上的本地硬盘设备,存储I/O性能、海量存储的性价比极高,但数据可靠性取决于物理机的可靠性,存在单点故障风险。</td>
</tr>
<tr>
<td>快照</td>
<td>某一时间点云盘数据状态的备份文件,用于备份或者恢复整个云盘。</td>
</tr>
<tr>
<td>安全组</td>
<td>一种虚拟防火墙,您可以基于安全组控制实例的入流量和出流量。</td>
</tr>
<tr>
<td>SSH密钥对</td>
<td>一种安全便捷的登录认证方式,由公钥和私钥组成,仅支持Linux实例。</td>
</tr>
<tr>
<td>实例RAM角色</td>
<td>ECS实例通过实例RAM角色获得该角色拥有的权限,可以基于临时安全令牌STS(Security Token Service)访问指定云服务的API和操作指定的云资源,安全性更高。</td>
</tr>
<tr>
<td>专有网络</td>
<td>您基于阿里云创建的自定义私有网络,不同专有网络之间通过隧道在逻辑上彻底隔离。您可以完全掌控自己的专有网络,例如选择IP地址范围、配置路由表和网关等。</td>
</tr>
<tr>
<td>弹性网卡</td>
<td>一种独立的虚拟网卡,可以绑定到ECS实例或从ECS实例解绑,实现业务的灵活扩展和迁移。</td>
</tr>
<tr>
<td>实例启动模板</td>
<td>包含了ECS实例的配置信息,使用实例启动模板创建ECS实例可以免去重复配置的操作。</td>
</tr>
<tr>
<td>部署集</td>
<td>部署集支持高可用策略,部署集内实例会严格分散在不同的物理服务器上,保证业务的高可用性和底层容灾能力。</td>
</tr>
<tr>
<td>专有宿主机</td>
<td>一台由单租户独享物理资源的云主机,具有满足严格的安全合规要求、允许自带许可证(BYOL)上云等优势。</td>
</tr>
<tr>
<td>弹性供应组</td>
<td>用于快速部署多可用区、多实例规格的ECS实例集群,通过多种供应策略组合使用抢占式实例和按量付费实例,满足对低成本和高稳定性的要求。</td>
</tr>
<tr>
<td>标签</td>
<td>由一对键值(Key-Value)组成。使用标签标识具有相同特征的资源后,例如所属组织或用途相同的资源,您可以基于标签方便地检索和管理资源。</td>
</tr>
<tr>
<td>资源组</td>
<td>供您从业务角度管理跨地域、跨产品的资源,并支持针对资源组的权限管理。</td>
</tr>
<tr>
<td>云助手</td>
<td>阿里云提供的自动化运维工具,无需登录即可完成在ECS实例上执行命令、向ECS实例发送文件等操作。</td>
</tr>
<tr>
<td>系统事件</td>
<td>影响ECS实例运行状态的计划底层运维事件或非预期维修事件,需要进行重启、停止或释放ECS实例等操作。系统事件会及时发送通知、应对措施和事件周期等信息,方便您提前完成备份数据等准备工作。</td>
</tr>
</tbody>
</table>
<h2>六、阿里云gpu云服务器优惠活动</h2>
阿里云gpu云服务器主要应用于深度学习、图形可视化、视频处理、科学计算等应用场景。最新优惠活动如下:
[*]GPU算力赋能AIGC训练营火热进行中。
[*]体验八大AIGC场景,角逐最佳测评官,领取专属好礼。
[*]GPU实例最长100小时1折起!立即开启AIGC之旅。
[*]gn6v规格族、gn7i(指定规格)首购活动,包月5折,包年低至4折起。
[*]gn6v规格族包月低至6折起,gn6i规格族包年5折起。
[*]A10卡目录价降低11?5?6月6日上线生效。
[*]GPU云服务器Ebmgn7ix邀测报名通道。
更多阿里云阿里云GPU云服务器的产品详情及相关活动请参考:
1.GPU云服务器产品详情:https://www.aliyun.com/product/ecs/gpu
2.最新活动页面:https://www.aliyun.com/activity
3.免费试用中心:https://free.aliyun.com/
4.云小站(代金券发布平台):https://www.aliyun.com/minisite/goods
https://upload-images.jianshu.io/upload_images/19316870-786dcc9455fea270.png
<div class="image-caption">云小站代金券图.png
页:
[1]