我始终无法释怀一个重大的投资失误。
这个失误让我感到困扰,因为对于任何关注市场的人来说,这本是一个显而易见的投资机会,但我却没有投入一分钱。
并不是下一个Solana杀手,也不是带着搞笑帽子的狗的迷因币。
而是……NVIDIA。
NVDA股价年初至今的表现。来源:谷歌
在短短一年内,NVIDIA的市值从1万亿美元飙升至3万亿美元,增长了3倍,甚至在同一时期超越了比特币。
当然,这其中有一部分是由于AI的炒作,但更大程度上是基于现实。NVIDIA在2024财年报告了600亿美元的收入,比2023年增长了惊人的126%。这种增长主要是因为大型科技公司在全球AI竞争中争相购买GPU。
那么,我为什么会错过这个机会呢?
在过去的两年里,我专注于加密货币,没有关注AI领域的动态。这是一个重大失误,至今仍让我感到懊悔。
但我不会再犯同样的错误。
如今,加密AI的情况令人感到非常相似。我们正处于一次创新爆发的边缘。与19世纪中叶的加州淘金热有许多相似之处——行业和城市迅速崛起,基础设施飞速发展,敢于冒险的人们积累了财富。
就像早期的NVIDIA一样,回头看加密AI也会显得非常显而易见。
在我的论文第一部分,我解释了为什么加密AI是今天投资者和建设者最令人兴奋的机会。
以下是简要回顾:
许多人仍将其视为“虚拟产品”。加密AI正处于早期阶段——距离高峰炒作大约还有1-2年。在这个领域,至少存在2300亿美元的增长机会。
从本质上讲,加密人工智能是具有加密基础设施的人工智能。这意味着它比更广泛的加密市场更有可能追踪人工智能的指数增长轨迹。因此,为了保持领先地位,您必须关注 Arxiv 上最新的人工智能研究,并与那些相信自己正在打造下一件大事的创始人交谈。
在我的论文第二部分中,我将深入探讨加密AI中四个最有前景的子领域:
去中心化计算(训练、推理和GPU市场)数据网络可验证的AI链上AI代理
这篇文章是我经过数周深入研究和与加密AI领域创始人及团队交流的成果,并非对每个领域的详尽探讨——那是另一个话题。
相反,可以将其视为一份高层次的路线图,旨在激发好奇心,提升研究深度,并指导投资思考。
绘制生态图
我将去中心化AI堆栈视为一个分层生态系统:它从去中心化计算和开放数据网络开始,为去中心化AI模型训练提供支持。
每个推理都经过验证——输入和输出均如此——利用加密技术、加密经济激励和评估网络的组合。这些经过验证的输出流入能够在链上自主运行的AI代理,以及用户可以信赖的消费者和企业AI应用。
协调网络将这一切连接在一起,使生态系统中的通信和协作变得顺畅。
在这个愿景中,任何在AI领域构建的人都可以根据具体需求,利用这个堆栈的一个或多个层次。无论是利用去中心化计算进行模型训练,还是使用评估网络确保高质量输出,这个堆栈都提供了多种选择。
由于区块链的固有可组合性,我相信我们正在朝着一个模块化的未来发展。每一层都变得高度专业化,协议针对不同功能进行了优化,而不是采用一体化的综合方法。
来源:topology.vc
在去中心化AI堆栈的每个层面上,初创企业如雨后春笋般涌现,大多数是在过去1到3年内成立的。显然,我们仍处于早期阶段。
我见过的最全面、最新的加密AI初创企业地图由Casey和她的团队在topology.vc维护。这是一个对任何关注这个领域的人来说都非常有价值的资源。
在深入研究加密AI的子领域时,我常常问自己:这里的机会有多大?我不想进行小规模投资,我希望找到能够发展到数百亿美元的市场。
1、市场规模首先,我们来看看市场规模。在评估一个子领域时,我会问自己:这个领域是在创造一个全新的市场,还是在颠覆一个现有市场?
以去中心化计算为例。它是一个颠覆性的类别,其潜力可以通过观察现有的云计算市场来估算,目前这个市场的价值约为6800亿美元,预计到2032年将达到2.5万亿美元。
像AI代理这样的新市场更难以量化。由于缺乏历史数据,评估这些市场的规模往往需要结合一些经验性判断和对解决问题的直觉。问题在于,有时候看似新市场的东西其实只是一个寻找问题的解决方案。
2. 时机时机至关重要。技术通常会随着时间的推移而改进并变得更便宜,但进展的速度各不相同。
某个子领域的技术成熟程度如何?它是否准备好扩展,还是仍处于研究阶段,实际应用还需要几年?时机决定了一个领域是否值得立即关注,还是应该放在“观望”类别中。
以完全同态加密(FHE)为例:尽管它的潜力毋庸置疑,但目前仍然太慢,不适合广泛使用。我们可能还需要几年才能看到它达到主流可用性。通过优先关注那些更接近扩展的领域,我可以将时间和精力投入到势头和机会正在积累的地方。
如果我把这些类别绘制在一个规模与时机的图表上,它可能会是这样的。请注意,这更像是一个概念性草图,而不是一个严格的指南。这里有许多细微之处——例如,在可验证推理中,像zkML和opML等不同方法在可用性准备程度上各不相同。
尽管如此,我坚信AI的规模将是如此庞大,即使今天看起来是“利基”的市场也可能演变成一个重要市场。
还值得注意的是,技术进步并不总是遵循直线——它往往是跳跃式的。当出现突发性突破时,我对时机和市场规模的看法也会随之改变。。
在这个框架下,让我们逐一分析每个子领域。
第 1 部分:去中心化计算TL;dr
去中心化计算是去中心化AI的核心支柱。GPU市场、去中心化训练和去中心化推理是紧密相连并共同发展的。供应方通常来自中小型数据中心和消费级GPU。需求方虽然小但正在增长,目前的需求主要来自对价格敏感、对延迟不敏感的用户和较小的AI初创企业。目前Web3 GPU市场面临的最大挑战实际上是如何使其正常运作。在去中心化网络中协调GPU需要先进的工程技术和良好设计的稳健网络架构。
1.1. GPU 市场/计算网络
一些加密AI团队正在通过建立去中心化网络,利用全球潜在计算能力池,来抓住GPU供不应求的机会。
GPU市场的核心价值主张有三点:
您可以以“最多便宜90%”的价格访问计算资源,这得益于(1)去除中介和(2)开放供应方。实际上,这些市场允许您接触到全球最低的边际计算成本。更大的灵活性:没有锁定合同,没有KYC,没有等待时间。抵抗审查。
为了应对市场的供应方,这些市场从以下来源获取计算资源:
来自中小型数据中心的企业级GPU(例如A100、H100),这些数据中心在寻找需求上面临困难,或是希望多元化的比特币矿工。我还知道一些团队利用大型政府资助的基础设施项目,这些数据中心是作为技术增长计划的一部分而建立的。这些提供商通常被激励保持其GPU在网络上,这有助于他们抵消GPU的摊销成本。来自数百万游戏玩家和家庭用户的消费级GPU,他们将自己的计算机连接到网络,以换取代币奖励。
另一方面,去中心化计算的需求方目前来自:
对价格敏感、对延迟不敏感的用户。这个群体更看重价格而非速度。想象一下正在探索新领域的研究人员、独立AI开发者和其他不需要实时处理的成本敏感用户。由于预算限制,他们中的许多人可能在传统的超大规模云服务商(如AWS或Azure)面临困难。由于他们在用户中相对分散,针对这一群体的精准营销至关重要。较小的AI初创企业在获取灵活、可扩展的计算资源时面临挑战,而不想与主要云提供商签订长期合同。商业发展在吸引这一群体方面至关重要,因为他们正在积极寻找超大规模服务商的替代方案。构建去中心化AI产品的加密AI初创企业如果没有自己的计算资源,将需要借助这些网络的资源。云游戏:虽然不直接由AI驱动,但云游戏正成为对GPU资源需求的一个新兴来源。
关键要记住的是:开发者始终优先考虑成本和可靠性。
真正的挑战:需求,而非供应在这个领域,初创企业常常将其GPU供应网络的规模视为成功的标志,但这实际上是误导性的——充其量只是一个虚荣指标。
真正的限制不是供应,而是需求。我们应该关注的关键指标不是可用的GPU数量,而是它们的利用率和实际出租的数量。
代币在启动供应方面非常有效,能够创造快速扩张所需的激励,但它们并不能从根本上解决需求问题。真正的考验在于将产品提升到足够好的状态,以便潜在需求能够显现出来。
Haseeb Qureshi(Dragonfly)对此有很好的总结:
让计算网络真正发挥作用与普遍看法相反,当前web3分布式GPU市场面临的最大障碍就是让它们正常运作。
这并不是一个简单的问题。
在分布式网络中协调GPU是复杂的,面临多层次的挑战——包括资源分配、动态工作负载扩展、节点和GPU之间的负载均衡、延迟管理、数据传输、容错,以及处理分布在不同地理位置的多样化硬件。我可以继续列举更多挑战。
实现这一目标需要严谨的工程技术和良好设计的稳健网络架构。
为了更好地理解这一点,可以考虑谷歌的Kubernetes。它被广泛认为是容器编排的黄金标准,自动化了在分布式环境中的负载均衡和扩展等过程,这与分布式GPU网络面临的挑战非常相似。Kubernetes本身是在谷歌十多年的经验基础上构建的,即使如此,经过多年的不断迭代才得以完善。
去中心化计算网络的另一个挑战和机会是确保可信度:验证每个节点是否真的提供其声称的计算能力。目前,这依赖于网络的声誉,在某些情况下,计算提供商的排名由声誉分数决定。区块链似乎是无信任验证系统的理想选择。像Gensyn和Spheron这样的初创企业正在推动无信任的方法来解决这个问题。
一些已经上线的GPU计算市场能够处理小规模工作负载,但一旦尝试扩展,问题就会显露出来。我怀疑这与它们建立在设计不良的架构基础上有关。与普遍看法相反,当今 web3 分布式 GPU 市场的最大障碍就是让它们正常工作。
今天,许多web3团队仍在应对这些挑战,这意味着机会依然广阔。
去中心化计算市场规模去中心化计算网络的市场有多大?
目前,它可能只占6800亿美元到2.5万亿美元云计算行业的一小部分。然而,尽管用户面临额外的摩擦,只要成本低于传统提供商,就总会有一定的需求。
我相信,由于代币补贴和那些对价格不敏感的用户释放供应(例如,如果我能把我的游戏笔记本电脑租出去赚取额外现金,无论是每月20美元还是50美元,我都很满意),成本在短期到中期内将保持较低。
但去中心化计算网络的真正增长潜力——以及它们的实际市场扩展——将在以下情况下出现:
去中心化AI模型训练变得可行。推理需求激增,而现有的数据中心无法满足。这种情况已经开始显现。Jensen Huang表示,推理需求将增加“十亿倍”。适当的服务水平协议(SLA)可用,解决企业采用的关键障碍。目前,去中心化计算是在尽力而为的基础上运作,导致用户的服务质量水平不一(例如:正常运行时间的百分比)。有了SLA,这些网络可以提供标准化的可靠性和性能指标,使去中心化计算成为传统云计算提供商的可行替代方案。
去中心化、无许可的计算是去中心化AI生态系统的基础层——基础设施。
尽管硅(即GPU)的供应链正在不断扩展,我相信我们仅处于人类智能时代的黎明。对计算的需求将是无止境的。
请关注可能触发所有活跃GPU市场重大重新评估的转折点。这可能很快就会到来。
其他注意事项:
纯GPU市场竞争激烈,去中心化平台之间竞争激烈,同时web2 AI 新云(如Vast.ai和Lambda)也在崛起。小型节点(例如4个H100)由于用途有限,需求不大,但要找到出售大型集群的人可不容易——这些仍然有很大需求。是否会有一个主导玩家聚合所有去中心化协议的计算供应,还是会在多个市场之间保持分散?我倾向于前者,并认为结果会呈现幂律分布,因为整合通常会推动基础设施的效率。但这需要时间来验证,同时,分散和混乱的状态仍在继续。开发者希望专注于构建应用,而不是处理部署和配置。市场必须抽象化这些复杂性,使访问计算尽可能无摩擦。
1.2.去中心化训练TL;dr
如果扩展法则成立,在单个数据中心训练下一代前沿AI模型在物理上将变得不可能。训练AI模型需要在GPU之间大量数据传输。分布式GPU之间的数据传输(互连)速度低通常是最大的障碍。研究人员正在同时探索多种方法,并且突破正在发生(例如Open DiLoCo、DisTrO)。这些进展将叠加并复合,加速该领域的发展。去中心化训练的未来可能在于专为特定应用设计的小型专业模型,而不是以前沿AGI为目标的模型。随着对像OpenAI的o1这样的模型的需求激增,推理需求即将暴涨,为去中心化推理网络创造机会。
想象一下:一个巨大的、改变世界的AI模型,不是在秘密的精英实验室中开发,而是由数百万普通人共同创造的。游戏玩家,他们的GPU通常会产生《使命召唤》的电影爆炸效果,现在将他们的硬件借给更伟大的事业——一个开放源代码、集体拥有的AI模型,没有中央控制者。
在这个未来,基础规模模型不仅仅是顶级AI实验室的领域。
但让我们将这个愿景与今天的现实结合起来。目前,重量级AI训练的主要部分仍然集中在数据中心,这种情况可能会持续一段时间。
像OpenAI这样的公司正在扩大其庞大的集群。Elon Musk最近宣布,xAI即将完成一个数据中心,拥有相当于200,000个H100 GPU的能力。
但这不仅仅关乎GPU的数量。模型FLOPS利用率(MFU)——这是在谷歌2022年PaLM论文中引入的一个指标——追踪GPU最大能力的使用效率。令人惊讶的是,MFU通常徘徊在35-40%左右。
为什么这么低?尽管GPU性能多年来根据摩尔定律飞速提升,但网络、内存和存储的改进却显著滞后,造成了瓶颈。因此,GPU常常处于闲置状态,等待数据。
如今,AI训练高度集中,原因只有一个——效率。
训练大型模型依赖于以下技术:
• 数据并行性:将数据集分割到多个GPU上以并行执行操作,加速训练过程。
• 模型并行性:将模型的部分分布到GPU上,以绕过内存限制。
这些方法要求GPU不断交换数据,使互连速度——在网络中计算机之间数据传输的速率——变得至关重要。
当前沿AI模型的训练成本可能超过10亿美元时,每一项效率提升都至关重要。
由于其高速互连,集中式数据中心能够在GPU之间快速传输数据,并在训练时间上创造可观的成本节省,而去中心化设置尚无法匹敌……
克服互连速度慢的问题如果你和AI领域的人交谈,很多人会告诉你去中心化训练根本不可行。
在去中心化的设置中,GPU集群并不集中在一起,因此它们之间的数据传输速度很慢,成为了瓶颈。训练需要GPU在每一步进行同步和数据交换,距离越远,延迟越高。更高的延迟意味着训练速度更慢,成本更高。
在集中式数据中心可能需要几天的工作,使用去中心化的方法可能要延长到两周,而且成本更高。这显然是不可行的。
但这种情况即将改变。
好消息是,围绕分布式训练的研究兴趣正在迅速增长。研究人员正在同时探索多种方法,这从大量的研究和论文中可见一斑。这些进展将相互叠加,加速该领域的发展。
这也涉及到在实际环境中进行测试,看看我们能推到多远。
一些去中心化训练技术已经能够在慢速互连环境中处理较小的模型。如今,前沿研究正在推动将这些方法扩展到更大的模型。
例如,Prime Intellect的开放DiCoLo论文展示了一种实用的方法,涉及“岛屿”GPU在同步之前执行500个本地步骤,从而将带宽需求减少多达500倍。最初是谷歌DeepMind对小型模型的研究,现在已扩展到训练一个100亿参数的模型,并于11月全面开源。Nous Research通过其DisTrO框架进一步提升标准,该框架利用优化器在训练一个12亿参数的模型时,将GPU之间的通信需求减少到惊人的10,000倍。而且这种势头还在不断增强。在12月,Nous宣布预训练一个150亿参数的模型,其损失曲线(模型错误随时间减少的情况)和收敛速度(模型性能稳定的速度)与集中式训练的结果相匹配或超越。是的,效果优于集中式训练。SWARM并行性和DTFMHE是其他在不同设备上训练非常大AI模型的方法,即使这些设备的速度和连接各不相同。
另一个挑战是管理各种GPU硬件,包括在去中心化网络中常见的内存有限的消费级GPU。像模型并行性(在设备之间分割模型层)这样的技术可以帮助实现这一目标。
去中心化训练的未来当前的去中心化训练方法仍然限制在远低于前沿的模型规模(据报道,GPT-4接近一万亿参数,100倍于Prime Intellect的100亿模型)。要真正扩展,我们需要在模型架构、网络基础设施和设备间更智能的任务分配方面取得突破。
我们可以大胆设想。想象一个世界,去中心化训练汇聚的GPU计算能力甚至超过最大的集中式数据中心。
Pluralis Research(一个在去中心化训练方面表现出色的团队,值得密切关注)认为这不仅是可能的——而且是不可避免的。集中式数据中心受限于空间和电力等物理约束,而去中心化网络可以利用几乎无限的全球资源池。
甚至NVIDIA的Jensen Huang也承认,异步去中心化训练可能会释放AI扩展的真正潜力。分布式训练网络也更具容错能力。
因此,在一个潜在的未来,世界上最强大的AI模型将以去中心化的方式进行训练。
这是一个令人兴奋的前景,但我尚未完全信服。我们需要更强有力的证据来证明最大模型的去中心化训练在技术和经济上都是可行的。
我看到的巨大潜力在于:去中心化训练的最佳应用可能在于为特定用例设计的小型专业开源模型,而不是与超大型、以AGI为驱动的前沿模型竞争。某些架构,特别是非变换器模型,已经证明非常适合去中心化设置。
还有另一个关键因素:代币。一旦去中心化训练在规模上变得可行,代币可能在激励和奖励贡献者方面发挥关键作用,有效地启动这些网络。
实现这一愿景的道路漫长,但进展令人鼓舞。去中心化训练的进步将惠及所有人——甚至大型科技公司和顶级AI研究实验室——因为未来模型的规模将超出单个数据中心的能力。
未来是分布式的。当一项技术具有如此广泛的潜力时,历史表明它总是会比任何人预期的更快、更好。
1.3.去中心化推理目前,AI中的大多数计算能力都集中在训练大型模型上。顶级AI实验室正在进行一场武器竞赛,以开发最佳基础模型,并最终实现AGI。
但我的看法是:这种对训练的强烈计算关注将在未来几年转向推理。随着AI越来越多地嵌入到我们日常使用的应用中——从医疗到娱乐——支持推理所需的计算资源将是惊人的。
而且这并不仅仅是推测。推理时计算扩展是AI中的最新流行词。OpenAI最近发布了其最新模型o1(代号:草莓)的预览/迷你版本,而最大的变化是?它会花时间思考,首先问自己应该采取哪些步骤来回答问题,然后逐步执行每个步骤。
这个模型旨在处理更复杂、需要规划的任务——比如解谜,并解决需要更深层次推理的问题。你会发现它的反应速度较慢,需要更多时间生成回答,但结果更加深思熟虑和细致。运行成本也显著更高(是GPT-4的25倍)。
关注的转变显而易见:AI性能的下一个飞跃不仅仅来自于训练更大的模型,还来自于在推理过程中扩大计算使用。
如果你想了解更多,有几篇研究论文表明:
通过重复采样扩展推理计算可以在各种任务中带来显著改善。推理也存在指数扩展法则。
一旦强大的模型训练完成,它们的推理任务——即模型的实际应用——可以转移到去中心化计算网络上。这是非常合理的,因为:
推理的资源消耗远低于训练。一旦训练完成,模型可以使用量化、剪枝或蒸馏等技术进行压缩和优化。它们甚至可以通过张量或管道并行性进行拆分,以在普通消费设备上运行。进行推理并不需要高端GPU。这种情况已经在发生。Exo Labs已经找到了在MacBook和Mac Mini等消费级硬件上运行450B参数Llama3模型的方法。将推理分配到多个设备上可以高效且经济地处理大规模工作负载。更好的用户体验。将计算任务放在离用户更近的地方可以大幅降低延迟,这对实时应用(如游戏、增强现实或自动驾驶汽车)至关重要。每毫秒都很重要。
可以将去中心化推理视为AI的CDN(内容分发网络):它不是通过连接到附近的服务器快速交付网站,而是利用本地计算能力以创纪录的速度提供AI响应。通过采用去中心化推理,AI应用变得更加高效、响应更快、可靠性更高。
趋势显而易见。苹果的新M4 Pro芯片与NVIDIA的RTX 3070 Ti相媲美——这款GPU直到最近还属于硬核游戏玩家的领域。我们现有的硬件越来越能够处理高级AI工作负载。
加密货币的增值为了使去中心化推理网络成功,必须为参与者提供有吸引力的经济激励。网络中的节点需要因其计算贡献获得补偿。系统必须确保奖励的公平和高效分配。地理多样性至关重要,可以降低推理任务的延迟,提高容错能力。
而建立去中心化网络的最佳方式是什么?加密。
代币提供了一种强大的机制,使参与者的利益保持一致,确保每个人都朝着同一个目标努力:扩展网络并提升代币的价值。
代币还可以大大加速网络的增长。它们帮助解决了大多数网络所面临的经典“鸡蛋与鸡”的问题,通过奖励早期采用者并从第一天起推动参与。
比特币和以太坊的成功证明了这一点——它们已经聚集了地球上最大的计算能力池。
去中心化推理网络是下一个目标。凭借地理多样性,它们降低了延迟,提高了容错能力,并将AI带得更靠近用户。
声明:
本文转载自【Chain of Thought】,著作权归属原作者【Teng Yan】,如对转载有异议,请联系 Gate Learn 团队,团队会根据相关流程尽速处理。免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。文章其他语言版本由 Gate Learn 团队翻译, 在除非另有说明,否则禁止复制、传播或抄袭经翻译文章。