本文是Future3CampusAI+Web3产业研究报告第二篇,详解基础设施层的发展潜力、叙事逻辑和代表性头部项目。第一篇:AI+Web3未来发展之路:产业图景和叙事逻辑。
近年来,算力需求快速增长,尤其是在LLM大模型面世后,AI算力需求引爆了高性能算力市场。OpenAI数据显示,自2012年以来,用于训练最大AI模型的计算用量呈指数级增长,平均每3-4个月翻倍,其增长速度大大超过了摩尔定律。AI应用的需求增长导致了对计算硬件的需求快速增加,预计到2025年,AI应用对计算硬件的需求将增长约10%到15%。
受AI算力需求影响,GPU硬件厂商英伟达的数据中心收入持续增长,23年Q2的数据中心收入达到$10.32B,比23年Q1增长141%,比去年同期增长171%。2024财年第四季度中数据中心业务占据83%以上营收,同步增长409%,其中40%用于大模型的推理场景,显示出对于高性能算力的强大需求。
同时需要海量数据也对存储和硬件内存提出了要求,尤其是在模型训练阶段,需要大量的参数输入,需要存储大量数据。在AI服务器中应用的存储芯片主要包括:高带宽存储器(HBM)、DRAM和SSD,针对AI服务器的工作场景需要提供更大的容量、更高的性能、更低的延迟和更高的响应速度。根据美光测算,AI服务器中DRAM数量是传统服务器的8倍,NAND是传统的3倍。
通常来说,算力主要应用在AI模型的训练、微调和推测阶段,尤其是在训练微调阶段,由于更大的数据参数输入和计算量,同时对并行计算的互联性要求更高,因此需要更性能、互联能力更强的GPU硬件,通常是高性能的GPU算力集群。随着大模型的发展,计算复杂度也直线上升,使得需要更多高端硬件来满足模型训练需求。
以GPT3为例,按1300万独立用户访问的情况来说,对应的芯片需求是3万多片A100GPU。那么初始投入成本将达到惊人的8亿美元,每日模型推理费用预估费用70万美元。
同时,据行业报道,2023年第四季度,NVIDIAGPU供应量在全球范围内都被严格限制,导致全球市场都出现了明显的供不应求。英伟达产能受限于台积电、HBM、CoWos封装等产能,H100的「严重缺货问题」至少会持续到2024年底。
因此高端GPU的需求上升和供应受阻两方面推动了当前GPU等硬件的高昂价格,尤其是类似英伟达这种占据产业链底层核心的公司,通过龙头垄断还能进一步获得价值红利。例如英伟达的H100AI加速卡的物料成本约为3000美元,而在2023年中售价已经达到了3.5万美元左右,甚至在eBay上卖出了超过4w美元的价格。
GrandViewResearch的报告显示,全球云AI市场的规模在2023年估计为626.3亿美元,并预计到2030年将增长到6476亿美元,年复合增长率为39.6%。这一数据反映了云AI服务的增长潜力及其在整个AI产业链中所占的重要份额。
根据a16z的估算,AIGC市场的大量资金最终流向了基础设施公司。平均而言,应用程序公司将大约20-40%的收入用于推理和针对每个客户的微调。这通常直接支付给计算实例的云提供商或第三方模型提供商反过来,第三方模型提供商将大约一半的收入花在云基础设施上。因此,有理由猜测当今AIGC总收入的10-20%流向了云提供商。
同时,更大一部分的算力需求在于大型AI模型的训练,例如各类LLM大模型,尤其是对于模型初创公司,80-90%的成本都用于AI算力使用。综合来看,AI计算基础设施(包括云计算和硬件)预计占据市场初期50%以上的价值。
如上文所述,当前中心化AI计算的成本高企,很重要的一个原因是AI训练对高性能基础设施的需求增长。但是实际上市场上大量仍然存在大量的算力面临闲置的问题,出现了一部分的供需错配。其中主要原因是:
受限于内存,模型复杂度与所需要的GPU数量并不是线性增长关系:当前的GPU具有算力优势,但是模型训练需要大量的参数存储在内存。例如对于GPT-3来说,为了训练1750亿个参数的模型,需要在内存中保存超过1TB的数据这超过了当今现有的任何GPU,因此需要更多的GPU进行并行计算和存储,这又会导致GPU算力的闲置。比如从GPT3到GPT4,模型参数规模增加约10倍,但是所需要的GPU数量增加了24倍(且不考虑模型训练时间的增长)。据相关分析称,OpenAI在GPT-4的训练中使用了大约2.15e25的FLOPS,在大约25000个A100GPU上进行了90到100天的训练,其算力利用率约为32%至36%。
面对以上问题,设计更加符合AI工作的高性能芯片或者专用ASIC芯片是目前很多开发者和大型企业在探索的方向,另一个角度则是综合利用现有的计算资源,建设分布式算力网络,通过算力的租赁、共享、调度等来降低算力的成本。此外,目前市场有很多闲置的消费级GPU和CPU,单体算力不强,但是在某些场景或者与现有高性能芯片一起配置也能过满足现有的计算需求,最重要的是供应充足,通过分布式网络调度能够进一步降低成本。
因此分布式算力成为了AI基础设施发展的一个方向。同时因为Web3与分布式具有相似的概念,去中心化算力网络也是当前Web3+AI基础设施的主要应用方向。目前市场上的Web3去中心化算力平台普遍能够提供相比较中心化云算力低80%-90%的价格。
存储虽然也为AI最重要的基础设施,但存储对大规模、易用性、低延迟等要求使得目前中心化的存储具有更大的优势。而分布式计算网络由于其显著的成本优势,则存在更加切实的市场,能够更大地享受到AI市场爆发带来的红利。
模型推理和小模型训练是当前分布式算力的核心场景。分布式算力由于算力资源的分散,不可避免地增加GPU之间的通信问题,因此会降低算力性能。因此,分布式算力首先更加适合对通信要求少,可以支持并行的场景,例如AI大模型的推理阶段,以及参数量比较少的小模型,其受到的性能影响较小。事实上随着未来AI应用的发展,推理才是应用层的核心需求,大部分公司没有能力去做大模型的训练,因此分布式算力仍然具有长期潜力的市场。
为大规模并行计算设计的高性能分布式训练框架也不断涌现。例如Pytorch、Ray、DeepSpeed等创新式的开源分布式计算框架为开发者使用分布式算力进行模型训练提供了更强的基础支持,使得分布式算力在未来AI市场的适用性会更强。
我们看到,分布式AI基础设施需求强,且具有长期增长潜力,因此是易于叙事和受到资本青睐的领域。目前AI+Web3产业的基础设施层的主要项目基本是以去中心化的计算网络为主要的叙事,以低成本为主要优势,以代币激励为主要方式扩展网络,服务AI+Web3客户为主要目标。主要包括两个层面:
1.比较纯粹的去中心化云计算资源的共享和租赁平台:有很多早期的AI项目,例如RenderNetwork、AkashNetwork等;
算力资源为主要竞争优势:核心竞争优势和资源通常是能够接触到大量的算力提供商,快速建立其基础网络,同时提供易用性强的产品给客户使用。早期市场中很多做云算力的公司和矿工会更容易切入这个赛道。
产品门槛较低,上线速度快:对于RenderNetwork、AkashNetwork这种成熟产品来说,已经可以看到切实增长的数据,具有一定的领先优势。
新进入者产品同质化:由于目前赛道热点和此类产品低门槛的特点,最近也进入了一大批做共享算力、算力租赁等叙事的项目,但是产品比较同质化,还需要看到更多的差异化竞争优势。
偏向于服务简单计算需求的客户:例如RenderNetwork主要服务渲染需求,AkashNerwork的资源提供中CPU更多。简单的计算资源租赁多数满足简单的AI任务需求,无法满足复杂的AI训练、微调、推测等全生命周期需求。
以上就是AI+Web3未来发展之路:基础设施篇的全部内容,望能这篇AI+Web3未来发展之路:基础设施篇可以帮助您解决问题,能够解决大家的实际问题是非常好学习网一直努力的方向和目标。