AI+Web3未来发展之路:基础设施篇

时间:2024-07-02  分类:电子


本文是Future3CampusAI+Web3产业研究报告第二篇,详解基础设施层的发展潜力、叙事逻辑和代表性头部项目。第一篇:AI+Web3未来发展之路:产业图景和叙事逻辑。


基础设施是AI发展的确定性成长方向


爆发增长的AI算力需求


近年来,算力需求快速增长,尤其是在LLM大模型面世后,AI算力需求引爆了高性能算力市场。OpenAI数据显示,自2012年以来,用于训练最大AI模型的计算用量呈指数级增长,平均每3-4个月翻倍,其增长速度大大超过了摩尔定律。AI应用的需求增长导致了对计算硬件的需求快速增加,预计到2025年,AI应用对计算硬件的需求将增长约10%到15%。


受AI算力需求影响,GPU硬件厂商英伟达的数据中心收入持续增长,23年Q2的数据中心收入达到$10.32B,比23年Q1增长141%,比去年同期增长171%。2024财年第四季度中数据中心业务占据83%以上营收,同步增长409%,其中40%用于大模型的推理场景,显示出对于高性能算力的强大需求。


同时需要海量数据也对存储和硬件内存提出了要求,尤其是在模型训练阶段,需要大量的参数输入,需要存储大量数据。在AI服务器中应用的存储芯片主要包括:高带宽存储器(HBM)、DRAM和SSD,针对AI服务器的工作场景需要提供更大的容量、更高的性能、更低的延迟和更高的响应速度。根据美光测算,AI服务器中DRAM数量是传统服务器的8倍,NAND是传统的3倍。


供需失衡推动高昂的算力成本


通常来说,算力主要应用在AI模型的训练、微调和推测阶段,尤其是在训练微调阶段,由于更大的数据参数输入和计算量,同时对并行计算的互联性要求更高,因此需要更性能、互联能力更强的GPU硬件,通常是高性能的GPU算力集群。随着大模型的发展,计算复杂度也直线上升,使得需要更多高端硬件来满足模型训练需求


以GPT3为例,按1300万独立用户访问的情况来说,对应的芯片需求是3万多片A100GPU。那么初始投入成本将达到惊人的8亿美元,每日模型推理费用预估费用70万美元。


同时,据行业报道,2023年第四季度,NVIDIAGPU供应量在全球范围内都被严格限制,导致全球市场都出现了明显的供不应求。英伟达产能受限于台积电、HBM、CoWos封装等产能,H100的「严重缺货问题」至少会持续到2024年底。


因此高端GPU的需求上升和供应受阻两方面推动了当前GPU等硬件的高昂价格,尤其是类似英伟达这种占据产业链底层核心的公司,通过龙头垄断还能进一步获得价值红利。例如英伟达的H100AI加速卡的物料成本约为3000美元,而在2023年中售价已经达到了3.5万美元左右,甚至在eBay上卖出了超过4w美元的价格。


AI基础设施占据产业链核心价值增长


GrandViewResearch的报告显示,全球云AI市场的规模在2023年估计为626.3亿美元,并预计到2030年将增长到6476亿美元,年复合增长率为39.6%。这一数据反映了云AI服务的增长潜力及其在整个AI产业链中所占的重要份额。


根据a16z的估算,AIGC市场的大量资金最终流向了基础设施公司。平均而言,应用程序公司将大约20-40%的收入用于推理和针对每个客户的微调。这通常直接支付给计算实例的云提供商或第三方模型提供商反过来,第三方模型提供商将大约一半的收入花在云基础设施上。因此,有理由猜测当今AIGC总收入的10-20%流向了云提供商。


同时,更大一部分的算力需求在于大型AI模型的训练,例如各类LLM大模型,尤其是对于模型初创公司,80-90%的成本都用于AI算力使用。综合来看,AI计算基础设施(包括云计算和硬件)预计占据市场初期50%以上的价值


去中心化AI计算


如上文所述,当前中心化AI计算的成本高企,很重要的一个原因是AI训练对高性能基础设施的需求增长。但是实际上市场上大量仍然存在大量的算力面临闲置的问题,出现了一部分的供需错配。其中主要原因是:



面对以上问题,设计更加符合AI工作的高性能芯片或者专用ASIC芯片是目前很多开发者和大型企业在探索的方向,另一个角度则是综合利用现有的计算资源,建设分布式算力网络,通过算力的租赁、共享、调度等来降低算力的成本。此外,目前市场有很多闲置的消费级GPU和CPU,单体算力不强,但是在某些场景或者与现有高性能芯片一起配置也能过满足现有的计算需求,最重要的是供应充足,通过分布式网络调度能够进一步降低成本。


因此分布式算力成为了AI基础设施发展的一个方向。同时因为Web3与分布式具有相似的概念,去中心化算力网络也是当前Web3+AI基础设施的主要应用方向。目前市场上的Web3去中心化算力平台普遍能够提供相比较中心化云算力低80%-90%的价格。


存储虽然也为AI最重要的基础设施,但存储对大规模、易用性、低延迟等要求使得目前中心化的存储具有更大的优势。而分布式计算网络由于其显著的成本优势,则存在更加切实的市场,能够更大地享受到AI市场爆发带来的红利。



AI+Web3基础设施项目的叙事逻辑


我们看到,分布式AI基础设施需求强,且具有长期增长潜力,因此是易于叙事和受到资本青睐的领域。目前AI+Web3产业的基础设施层的主要项目基本是以去中心化的计算网络为主要的叙事,以低成本为主要优势,以代币激励为主要方式扩展网络,服务AI+Web3客户为主要目标。主要包括两个层面:


1.比较纯粹的去中心化云计算资源的共享和租赁平台:有很多早期的AI项目,例如RenderNetwork、AkashNetwork等;