去中心化AI模型训练的可行性:当去中心化网络能够支持AI模型的训练时,将会带来巨大的市场需求。
推理需求的爆发:随着AI推理需求激增,现有数据中心可能无法满足这一需求。事实上,这种趋势已经开始显现。NVIDIA的JensenHuang表示,推理需求将会增长“十亿倍”。
服务等级协议(SLAs)的引入:目前,去中心化计算主要以“尽力而为”的方式提供服务,用户可能会面临服务质量(如正常运行时间)的不确定性。有了SLAs,这些网络可以提供标准化的可靠性和性能指标,从而打破企业采用的关键障碍,使去中心化计算成为传统云计算的可行替代方案。
去中心化、无需许可的计算是去中心化AI生态系统的基础层,也是其最重要的基础设施之一。
尽管GPU等硬件供应链正在不断扩展,但我相信,我们仍然处于“人类智能时代”的黎明阶段。未来,对计算能力的需求将是无止境的。
请关注可能触发GPU市场重新定价的关键拐点——这个拐点可能很快就会到来。
其他备注:
纯GPU市场竞争非常激烈,不仅有去中心化平台之间的较量,还面临Web2AI新兴云平台(如Vast.ai和Lambda)的强势崛起。
小型节点(例如4张H100GPU)由于用途有限,市场需求并不大。但如果你想找到出售大型集群的供应商,那几乎是不可能的,因为它们的需求依然非常旺盛。
去中心化协议的计算资源供应究竟会被某个主导者整合,还是会继续分散在多个市场中?我更倾向于前者,并认为最终结果会呈现幂律分布,因为整合往往能提升基础设施的效率。当然,这一过程需要时间,而在此期间,市场的分散和混乱还将持续。
开发者更希望专注于构建应用,而不是花时间应对部署和配置问题。因此,计算市场需要简化这些复杂性,尽可能减少用户在获取计算资源时的摩擦。
1.2去中心化训练
总结
如果扩展法则(ScalingLaws)成立,那么未来在单一数据中心训练下一代前沿AI模型将会在物理上变得不可行。
训练AI模型需要大量的GPU间数据传输,而分布式GPU网络较低的互连速度通常是最大的技术障碍。
研究人员正在探索多种解决方案,并取得了一些突破性进展(如OpenDiLoCo和DisTrO)。这些技术创新将会叠加效应,加速去中心化训练的发展。
去中心化训练的未来可能更多地集中于为特定领域设计的小型、专用模型,而非面向AGI的前沿模型。
随着OpenAI的o1等模型的普及,推理需求将迎来爆发式增长,这也为去中心化推理网络创造了巨大的机会。
想象一下:一个巨大的、改变世界的AI模型,不是由秘密的顶尖实验室开发,而是由数百万普通人共同完成。游戏玩家们的GPU不再只是用来渲染《使命召唤》的炫酷画面,而是被用来支持更宏大的目标——一个开源、集体拥有的AI模型,没有任何中心化的把关者。
在这样的未来,基础规模的AI模型不再是顶尖实验室的专属领域,而是全民参与的成果。
但回到现实,目前大部分重量级AI训练仍然集中在中心化数据中心,这种趋势在未来一段时间内可能不会改变。
像OpenAI这样的公司正在不断扩大其庞大的GPU集群规模。ElonMusk最近透露,xAI即将完成一个数据中心,其GPU总量相当于20万张H100。
但问题不只是GPU的数量。Google在2022年的PaLM论文中提出了一个关键指标——模型FLOPS利用率(ModelFLOPSUtilization,MFU),用于衡量GPU最大计算能力的实际利用率。令人意外的是,这一利用率通常只有35-40%。
为什么会这么低?尽管GPU性能随着摩尔定律的推进飞速提升,但网络、内存和存储设备的改进却远远落后,形成了显著的瓶颈。结果,GPU经常处于闲置状态,等待数据传输完成。
目前,AI训练高度中心化的根本原因只有一个——效率。
训练大型模型依赖以下关键技术:
这些技术要求GPU之间频繁交换数据,因此互连速度(即网络中数据传输的速率)至关重要。
当前沿AI模型的训练成本可能高达10亿美元时,每一点效率的提升都至关重要。
中心化数据中心凭借其高速互连技术,可以在GPU之间实现快速数据传输,从而在训练时间内显著节省成本。这是去中心化网络目前难以匹敌的……至少现在还不行。
克服缓慢的互连速度
如果你与AI领域的从业者交流,许多人可能会直言,去中心化训练是行不通的。
在去中心化的架构中,GPU集群并不位于同一物理位置,这导致它们之间的数据传输速度较慢,成为主要瓶颈。训练过程需要GPU在每一步都进行数据同步和交换。距离越远,延迟越高。而更高的延迟意味着训练速度变慢,成本增加。
一个在中心化数据中心只需几天完成的训练任务,在去中心化环境下可能需要两周时间,并且成本更高。这显然不具备可行性。
然而,这一情况正在发生改变。
令人振奋的是,分布式训练的研究热度正在迅速上升。研究人员正从多个方向同时展开探索,最近涌现的大量研究成果和论文便是明证。这些技术进展将产生叠加效应,加速去中心化训练的发展。
此外,实际生产环境中的测试也至关重要,它能帮助我们突破现有的技术边界。
目前,一些去中心化训练技术已经能够在低速互连环境中处理较小规模的模型。而前沿研究正在努力将这些方法扩展到更大规模的模型上。
NousResearch的DisTrO框架则进一步突破,通过优化器技术将GPU间的通信需求减少了高达10,000倍,同时成功训练了一个拥有12亿参数的模型。
这一势头还在持续。Nous最近宣布,他们已完成一个150亿参数模型的预训练,其损失曲线和收敛速度甚至超越了传统中心化训练的表现。
(推文详情)
另一个挑战是如何管理多样化的GPU硬件,尤其是去中心化网络中常见的消费级GPU,这些设备通常内存有限。通过模型并行技术(将模型的不同层分布到多台设备上),这一问题正在逐步得到解决。
去中心化训练的未来
目前,去中心化训练方法的模型规模仍然远远落后于最前沿的模型(据报道GPT-4的参数量接近一万亿,是PrimeIntellect的100亿参数模型的100倍)。要实现真正的规模化,我们需要在模型架构设计、网络基础设施以及任务分配策略上取得重大突破。
但我们可以大胆设想:未来,去中心化训练或许能够汇聚比最大中心化数据中心还要多的GPU计算能力。
PluralisResearch(一个在去中心化训练领域非常值得关注的团队)认为,这不仅是可能的,而且是必然的。中心化数据中心受限于物理条件,例如空间和电力供应,而去中心化网络则可以利用全球几乎无限的资源。
甚至NVIDIA的JensenHuang也提到,异步去中心化训练可能是释放AI扩展潜力的关键。此外,分布式训练网络还具有更强的容错能力。
因此,在未来的一种可能性中,世界上最强大的AI模型将以去中心化的方式进行训练。
这一愿景令人兴奋,但目前我仍持保留态度。我们需要更多有力的证据,证明去中心化训练超大规模模型在技术上和经济上是可行的。
我认为,去中心化训练的最佳应用场景可能在于较小的、专用的开源模型,这些模型针对特定的应用场景设计,而不是与超大型、以AGI为目标的前沿模型竞争。某些架构,尤其是非Transformer模型,已经证明它们非常适合去中心化的环境。
此外,Token激励机制也将是未来的重要一环。一旦去中心化训练在规模上变得可行,Token可以有效激励并奖励贡献者,从而推动这些网络的发展。
尽管前路漫长,但当前的进展令人鼓舞。去中心化训练的突破不仅将惠及去中心化网络,也将为大型科技公司和顶尖AI实验室带来新的可能性……
1.3去中心化推理
目前,AI的计算资源大部分都集中在训练大型模型上。顶尖AI实验室之间正在进行一场军备竞赛,目标是开发出最强的基础模型,并最终实现AGI。
但我认为,这种对训练的计算资源集中投入将在未来几年逐渐向推理转移。随着AI技术越来越多地融入我们日常使用的应用程序——从医疗保健到娱乐行业——支持推理所需的计算资源将变得极为庞大。
这一趋势并非空穴来风。推理时的计算扩展(Inference-timeComputeScaling)已经成为AI领域的热门话题。OpenAI最近发布了其最新模型o1(代号:Strawberry)的预览版/迷你版,其显著特点是:它会“花时间思考”。具体来说,它会先分析自己需要采取哪些步骤来回答问题,然后逐步完成这些步骤。
这个模型专为更复杂、需要规划的任务设计,例如解决填字游戏,并能处理需要深度推理的问题。虽然它生成响应的速度较慢,但结果更加细致和深思熟虑。不过,这种设计也带来了高昂的运行成本,其推理费用是GPT-4的25倍。
从这一趋势可以看出,AI性能的下一次飞跃,不仅仅依赖于训练更大的模型,还将依赖于推理阶段计算能力的扩展。
如果你想了解更多,有几项研究已经证明:
一旦强大的AI模型被训练完成,它们的推理任务(即实际应用阶段)可以被卸载到去中心化计算网络中。这种方式非常具有吸引力,原因如下:
推理的资源需求远低于训练。训练完成后,模型可以通过量化(Quantization)、剪枝(Pruning)或蒸馏(Distillation)等技术进行压缩和优化。甚至可以通过张量并行(TensorParallelism)或流水线并行(PipelineParallelism)将模型拆分,从而在普通的消费级设备上运行。推理并不需要使用高端GPU。
这一趋势已经初见端倪。例如,ExoLabs已经找到了一种方法,可以在像MacBook和MacMini这样的消费级硬件上运行一个拥有4500亿参数的Llama3模型。通过将推理任务分布式运行在多个设备上,即使是大规模的计算需求也可以高效且低成本地完成。
我们可以将去中心化推理比作AI的CDN(内容分发网络)。传统的CDN是通过连接到邻近的服务器快速传输网站内容,而去中心化推理则是利用本地的计算资源,以极快的速度生成AI响应。通过这种方式,AI应用程序能够变得更加高效、响应更快,同时也更加可靠。
这一趋势已经初现端倪。苹果最新推出的M4Pro芯片,其性能已经接近NVIDIA的RTX3070Ti——这是一款曾经专属于硬核游戏玩家的高性能GPU。而如今,我们日常使用的硬件正变得越来越能够处理复杂的AI工作负载。
加密货币的价值赋能
要让去中心化推理网络真正成功,就必须为参与者提供足够有吸引力的经济激励。网络中的计算节点需要因其贡献的计算能力获得合理的报酬,同时系统还需确保奖励分配的公平性和高效性。此外,地理上的多样性也非常关键。它不仅能减少推理任务的延迟,还能提升网络的容错能力,从而增强整体的稳定性。
那么,构建去中心化网络的最佳方式是什么?答案是加密货币。
Token是一种强大的工具,可以将所有参与者的利益统一起来,确保每个人都在为同一个目标努力:扩大网络规模并提升Token的价值。
此外,Token还能够极大地加速网络的成长。它们帮助解决了许多网络在早期发展中面临的经典“先有鸡还是先有蛋”的难题。通过奖励早期采用者,Token能够从一开始就推动更多人参与网络建设。
比特币和以太坊的成功已经证明了这种机制的有效性——它们已经聚集了地球上最大的计算能力池。
去中心化推理网络将是下一个接棒者。通过地理多样性的特性,这些网络能够减少延迟、提升容错能力,并将AI服务更贴近用户。而借助加密货币驱动的激励机制,去中心化网络的扩展速度和效率将远远超过传统网络。
致敬
TengYan
在接下来的系列文章中,我们将深入探讨数据网络,并研究它们如何帮助突破AI面临的数据瓶颈。
免责声明
本文仅供教育用途,不构成任何财务建议。这并不是对资产买卖或财务决策的背书。在进行投资选择时,请务必自行研究并保持谨慎。