随着核心算法的突破、计算能力的迅速提高及海量数据的可用,人工智能(AI, Artificial Intelligence)终于迎来了质的飞跃。以AlphaGo为代表的围棋AI,对人类最顶级的选手,取得了碾压式的胜利。人工智能成为了全球瞩目的科技焦点,各路资本、各行各业也纷纷布局人工智能,以便在这个关乎未来的关键赛场上赢得先机。
人工智能的需求快速膨胀,从业人员的薪资也水涨船高。据估计,国内AI人才缺口在数百万以上,与AI密切相关的算法工程师,平均薪资已接近30万。如此火热的行情,吸引了越来越多的学生、程序员转行人工智能。
然而,透过人工智能发展的表面喧嚣,华为提供的一组数字,又让人感受到了 “冷静”:
- 只有4% 的企业已经投资或部署了AI;
- 只有约2% 零售商已经投资或部署了AI;
- 2017年只有约10%的智能手机内置了AI;
- 全球AI人才的供需比仅有1%。
问题分析
在算法性能突飞猛进之后,是什么限制了AI技术的落地?总结起来,以下几方面因素,正在成为普通企业拥抱人工智能、程序员们转行人工智能的拦路虎:
- 模型训练耗时长:这轮人工智能浪潮的核心是深度学习,它需要构建复杂的深度神经网络来完成各种任务。这些神经网络可能有成百上千的层数、数十亿的节点与训练参数。这种复杂模型的训练,往往需要数天甚至数月。这种训练速度严重制约了应用创新。
- 算力成本大:算力是AI的基础。英伟达(Nvidia)的GPU显卡是深度学习主要的算力平台。得益于人工智能的火爆,英伟达的股价在过去三年增长了近10倍。然而,以GTX、Tesla等为代表的显卡,有着动辄数千甚至数万的售价。对于个人或业务刚刚起步的公司,AI算力成为一笔昂贵的投入。
- 学习与开发门槛高:人工智能的基础涉及高等数学、概率统计、线性代数等,又与程序设计、分布式计算、图像处理与自然语言处理等密切关联。许多人对人工智能虽然兴趣浓厚,却不知学习该何处下手。许多公司,面临人才短缺、开发环境难建等难题,AI业务难以开展与落地。
困难就是机会,需求就是商机。在美国西部淘金热的时代,真正淘金发财的少之又少,为淘金客提供饮水、衣服与盆铲的李维斯们,却大发其财、绵延至今。现在,AI应用的热度几与淘金可比,那么,面向AI提供算力、环境配套与培训等服务,是否又是巨大的商机呢?与这个认识可印证的是,国内龙头企业华为,于10月10日在它的2018年全联接大会上,重磅发布了一整套AI战略,剑指算力、门槛、平台等AI应用的核心问题。
公司筛选
带着这个认识,我们盘点了国内提供算力、环境配套与培训等AI基础服务的企业。我们关心有以下业务方向的企业:
- 提供经济实惠的算力。鉴于Nvidia一家独大,AI芯片只见热炒不见售卖,我们将目标投向那些提供GPU算力租赁的企业。需要指出的是,CPU算力是非常便宜实惠的,但CPU在深度学习计算上效率不高,不是深度学习的主要算力来源。
- 提供AI开发相关的配套服务。AI开发,以Linux为主,需要安装Tensorflow、PyTorch等至少一种框架,往往还需要安装OpenCV、Pandas、Numpy等软件包。如果要分布式训练,还需要分布式框架的支持。整个过程配置繁琐、复杂、易出Bug。租赁的主机,能够预装这些常用开发包,可大大节省开发人员的时间。
- 提供AI学习相关的培训服务。市面上的AI培训课越来越多,但不少是借AI之名将Linux系统、前后端开发、数据分析等内容重新打包,缺少真正的AI培训课。个中缘由,一是AI发展很快,培训课需频繁更新;二是人才奇缺,优质人才都在做开发。优质AI培训,是市场的急需。
算力是以上问题的核心。我们以算力共享租赁作为主要的标准来寻找公司。
传统上,云计算是一种主要的算力共享模式。许多大公司,如Google、亚马逊、微软及国内的华为、阿里、腾讯、百度等,均提供GPU云主机。提供云主机的创业公司UCloud,发展迅猛,与AI Challenger等AI竞赛的合作也进一步放大了它的影响力。去年Nvidia推出了一项政策,用于云与数据中心的显卡,与个人客户的显卡相比,算力相近时售价差近十倍。因此,云主机的租赁,十分火爆的同时,我们的感觉就是一个字—“贵”。
另一种租赁方式是共享主机。它仍采用普通PC或服务器,不受Nvidia政策的限制,可采用相对经济实惠的GTX显卡(其实GTX 1080Ti高达7~8000千的售价,也是贵!)。用户可以按需租用这些主机,由于采用了共享经济的理念,这种方式比较经济实惠。这些主机可以公司自建,也可以采用P2P方式。最近,这个方向涌现了一批公司。我们所知,
- 国外:FloydHub、VectorDash、Vast.ai与ClusterOne。
- 国内:EasyAI与易学智能。
它们都怎么样呢?且听下回分解。
比较
我们共选择了9家相关公司,三家云服务公司(华为云、美团云与UCloud)、四家提供分布式主机的国外公司(见上)、两家提供分布式主机的国内公司(见上)。信息如表1所示。
由于相关资料有限,描述未必完全准确,详情请到公司官网了解。提供云服务的厂家如过江之鲫,这里只是列出了三家,其他家的价格与服务都差不多。
表1公司官网
公司名 |
官网 |
华为云 |
https://www.huaweicloud.com/ |
美团云 |
https://www.mtyun.com |
UCloud |
https://www.ucloud.cn/ |
FloydHub |
https://www.floydhub.com/ |
Vast.ai |
https://vast.ai |
VectorDash |
https://vectordash.com/ |
ClusterOne |
https://clusterone.com/ |
EasyAI 简单AI实验室 |
https://www.easyailab.cn/ |
EasyAIforum易学智能 |
https://gpu.easyaiforum.cn/#/home |
闲言少述,直接上表格。各指标的详细解读,请阅文后附录
表2服务指标比拼-1
公司名 |
价格 |
开发环境配套 |
数据集配套 |
培训配套 |
讨论社区配套 |
华为云 |
11元/小时 |
无 |
无 |
有 |
有 |
美团云 |
无 |
无 |
无 |
无 |
无 |
UCloud |
2107元/月 |
无 |
无 |
无 |
无 |
FloydHub |
5元/小时 |
Tensoflow、PyTorch、Keras、MXNet、Caffe等 |
有公开数据集但详情未知 |
自建教程 |
无 |
Vast.ai |
约2元/小时 |
通常支持Tensorflow、Caffe |
无 |
无 |
无 |
VectorDash |
约4.5元/小时 |
无 |
无 |
无 |
无 |
ClusterOne |
未知 |
Tensorflow等 |
未知 |
无 |
无 |
EasyAI |
仅CPU租赁 |
仅支持Jupyter Notebook |
无 |
Jupyter Notebook有大量案例,部分收费 |
无 |
易学智能 |
5元/小时
|
Tensoflow、PyTorch、Keras、MXNet、Caffe等 还预装openCV、Pandas、Numpy、Matplotlib等软件包 |
学术公开数据集齐备 竞赛数据集齐备 |
Jupyter Notebook有大量免费案例 |
论坛版块多,有深度内容 |
表3服务指标比拼-2
公司名 |
分布式训练 |
用户自有数据 |
用户数据加密 |
存储与算力的可扩展 |
远程调试 |
主机形态 |
华为云 |
可以,但无内置优化 |
支持 |
支持 |
支持 |
云服务支持 |
公司自有, 云模式 |
美团云 |
可以,但无内置优化 |
支持 |
支持 |
支持 |
云服务支持 |
公司自有, 云模式 |
UCloud |
可以,但无内置优化 |
支持 |
支持 |
支持 |
云服务支持 |
公司自有, 云模式 |
FloydHub |
支持 |
未知 |
未知 |
支持 |
未知 |
公司自有 |
Vast.ai |
可以,但无内置优化 |
支持,但性能不确定 |
未知 |
无 |
未知 |
P2P共享 |
VectorDash |
可以,但无内置优化 |
支持,但性能不确定 |
未知 |
无 |
未知 |
P2P共享 |
ClusterOne |
支持 |
未开放测试 |
未知 |
未知 |
未知 |
公司自有 |
EasyAI |
无 |
无 |
无 |
无 |
无 |
公司自有 |
易学智能 |
支持 |
支持 |
支持 |
支持 |
支持 |
公司自有 |
表4 算力共享服务总体感受
公司名 |
总体感受 |
华为云 |
操作复杂,价格贵,没有面向AI的优化。 |
美团云 |
操作复杂,价格贵,GPU基本租不到,没有面向AI的优化, 目前,个人用户已不可充值,后续发展有待观察。 |
UCloud |
操作比前两者简便,价格贵,没有面向AI的优化 |
FloydHub |
开发功能较齐备, 有学习内容, 缺少交流社区。 |
Vast.ai |
价格超低,但基本租不到 |
VectorDash |
价格实惠,刚刚上线,也基本租不到 |
ClusterOne |
只开放内测,详情未知 |
EasyAI |
偏重于AI教学培训, 租赁算力主要用于学习。 |
易学智能 |
涵盖论坛、开发平台与培训的完整解决方案, 支持分布式、用户自定义与加密保护等, 主流框架都支持,数据集最齐备,免费案例多, 后起之秀,功能完备,体验好。 |
国内厂家的优惠活动
撸羊毛是大家关心的,下面是各家的优惠活动。
表5优惠活动
公司名 |
GPU主机相关的优惠活动 |
华为云 |
新手体验活动,但未见GPU专门的活动 |
美团云 |
无 |
UCloud |
针对AI Challenger竞赛,可申请免费GPU(但不一定申请成功) |
EasyAI |
可免费体验 但没有GPU提供 |
易学智能 |
注册送一小时,完成调查后再送五小时,GTX 1080Ti六小时使用。 高校学生,每付费使用五小时,赠送一小时。 |
总结
可以看到,首先,由于Nvidia政策的原因,传统云主机并不是提供GPU算力的经济方案。可以说,采用这样的云主机,还不如自购自建平台(这样,Nvidia能卖更多显卡,垄断者都心黑啊)。其次,分布式GPU算力平台是一个新兴方向,相关的企业还比较少,国内外都处于刚刚起步的阶段。再次,由于GPU算力的稀缺,这个方向,成长空间巨大。
由于众所周知的原因,国内用户使用国外GPU主机是不要想了。就国内而言,简单AI实验室处于推广期,学习资料比较丰富;易学智能作为后起之秀,提供了比较完备的解决方案,最近又在搞各种优惠活动。这两家,大家可以去撸羊毛~~~。
附录:指标详解
我们采用的11项指标如下:
- 价格:以1080Ti或算力相近的显卡为例。
- 开发环境配套:虚拟机是否预装深度学习框架及常用软件包
- 数据集配套:公开数据集主要包括两类,一是用于学术的公开数据集,二是各种AI竞赛的数据集。
- 培训配套:AI学习的配套教程,既包括算力平台的使用,也包括AI知识技能的学习。
- 讨论社区配套:AI开发所采用的各种框架、开发包,本身就在急速发展中。可以预见,AI开发面临的bug必然是层出不穷,一个AI学习与讨论社区,对于算力租赁是十分必要的配套。
- 分布式训练:加速AI算法的训练与执行,并发是主要手段。然而,现在的并发方法都很复杂很不好用。方便易用的并发执行,对AI开发者很有吸引力。
- 用户自有数据:具体的AI业务,当然要用业务相关的数据来训练。支持用户自定义数据上传,算力平台才能支撑各种实际业务的开发。
- 用户数据加密:用户数据的隐私保护,重要性不需多言。能否将私人数据保护好,也是用户挑选算力平台的重要依据。
- 存储与算力的可扩展:任务的不同,所需要的数据量与计算量,差别可以很大。这就要求算力平台提供足够的灵活性,可以让用户按需扩展资源。
- 主机形态:共享经济是好东西,优点是实惠,缺点是可靠性可用性的损失。一种形式是公司自建算力平台,分时租给不同用户;还有一种彻底的共享——P2P方式,提供主机的也是散落各地的普通用户。
- 远程调试:直接在远程主机编程并不方便。因此,现在有些IDE已经支持远程调试。远程调试需要远程主机打开相应的端口与服务,本地还需要进行配置。虽然工序复杂,但对用户而言,体验很好。