巨头们为了获得 AI 决赛的入场券,都在一掷千金购买优质数据。
在 AI 时代,数据和算力一样,都是必需品。Reddit 曾在 IPO 招股书中透露,通过与 AI 公司签订的数据授权协议,已实现合计 2.03 亿美元的收入。此前 Information 报道,OpenAI 正在向出版商提供每年 100 至 500 万美元的报价,让更多新闻机构签署许可协议来训练其 AI 模型。
至于优质数据的保护,最显而易见的例子莫过于 X(前 Twitter)2023 年开始对 API 的严格限制。曾经投资过 OpenAI 的马斯克极有可能就是因为知道 X 是一座数据金库,才严格限制了 API 对 X 数据的获取。举个最简单的例子,虽然很多人都习惯用 AI 明星产品 Perplexity 替代 Google 进行搜索,但只有在最新发布的 Grok 上,用户才能检索到 X 上最新的帖子。某种程度上可以说,X 的数据成了 Grok 最大的护城河。
因为英伟达的存在,在加密圈,似乎人们只在乎 GPU 类项目,但很少有人认识到数据也是 AI 发展的关键资源。再强的算力也没办法创造奇迹,巧妇也难为无米之炊。没有足量的数据,足够优质的数据,系统就无法准确理解、预测和生成内容,进而无法在复杂的现实世界中有效运行。
如果把 Chatgpt 代表的 AI 应用和英伟达代表的 AI 算力称为面子,那么 Google 和 Microsoft 等巨头则整合有全网巨大部分的内容,提供了 AI 的里子。
数据不仅仅是 AI 的基础,更是 AI 的护城河。对此,深耕于数据层的 Grass 早有了一套完整的解决方案。
Grass 凭什么可以成为去中心化的 Google
如果让我用一句话总结 Grass 的核心工作理念,那就是从群众中来,到群众中去。全球用户通过运行 Grass 节点,贡献闲置带宽和中继流量用以捕获整个互联网中的实时优质数据,并获取 Token 代币奖励。
与传统巨头不同,Grass 作为在数据领域构建项目的领先加密协议,其抓取到的互联网海量数据被进行验证、梳理和清洗,成为可供出售的优质数据集。任何有意训练自己 AI 的企业和个人都可以从中这套系统中获益。
正如同 Hack VC 的管理合伙人 Ed Roman 对 Grass 的评价,由于庞大的激励节点网络的强大力量,这种数据获取可能会优于任何一家公司内部的数据获取努力。这不仅包括获取更多数据,还包括更频繁地获取数据,以便数据更具相关性和最新性。阻止一支去中心化的数据抓取者大军几乎是不可能的,因为它们本质上是碎片化的,并且不驻留在单一 IP 地址内。
当然,用户在贡献闲置带宽的过程中,自然会在意安全问题。对此 Grass 也给出了解释:在贡献多余带宽进行数据抓取时,Grass 不会使用用户的计算机或查看用户在计算机上执行的任何操作。它所做的只是通过用户的 IP 地址路由互联网流量,与用户的活动完全无关,这意味着其无法访问用户个人数据。
Grass 极低的入门门槛为其积累了庞大的用户群体。上线不到一年的时间,Grass 就已经拥有了超过 200 万活跃节点,如今的活跃节点超过 220 万。如果这超 200 万节点用户的积分在 Grass TGE 后转化为相应的代币,这可能使 Grass 成为有史以来分布最广泛的空投项目和社区之一。
作为为数不多有良好产品-市场契合度(PMF,Product Market Fit)的产品,Grass 团队不仅靠稳定运营展示了强大的技术基础,也用技术和社区合力为市场提交了一份满意的答卷。7 月 Grass 基金会在 Hugging Face 发布了数据集 UpvoteWeb,该数据集包含 2024 年 Reddit 上的 6 亿个顶级帖子和评论。是目前为止最大、最新的开源 Reddit 数据集。
Reddit 数据对于 AI 模型来说非常有价值,因为它通过 upvote 机制进行了人工标记,这种机制对响应质量进行排序,并为专家表达意见的子版块分类。Google 曾与 Reddit 达成了一项价值约 6000 万美元的协议,以获取 Reddit 上的数据用于训练其 AI 模型。
Grass 的长期目标不仅限于历史数据。他们打算构建一个实时上下文检索(LCR)引擎,该引擎将利用所有 Grass 节点并行、全天候地持续抓取互联网,实质上将 Grass 转变为一个用户拥有的搜索引擎,就像 Google 一样。理论上,任何希望检索实时数据的应用程序或大型语言模型(LLM)都可以使用 LCR。
Grass 为了保证训练模型的数据的有效性,还引入了 ZK 处理器和类似时间戳的功能的数据账本,通过 ZK 处理器保证 AI 模型得到正确的训练,通过数据账本保留的 metadata 来保证抓取数据的真实性和来源。
不止步于已有的成绩,未来的 Grass 还会从链和节点两方面持续迭代升级,增强数据传输和质量,提升网络效应。
曾经担任谷歌 CEO 长达 10 年之久的 Eric Schmidt 在斯坦福大学计算机学院 2024 年的演讲中表示,曾经觉得英伟达的 CUDA 并不是什么高明的编程语言,但现在 CUDA 是英伟达最伟大的护城河,所有的大模型都要在 CUDA 上运行。也让英伟达成为了 AI 行业当之无愧的基础设施和行业标准。
坐拥大量用户的 Grass 则正在努力通过成为 AI 数据层,这意味着 Grass 可以为更多的 AI 应用场景提供支持,从自然语言处理到图像识别,再到复杂的机器学习任务,Grass 的数据层能够满足各种不同的需求,最终像英伟达一样成为行业基础设施。
作为一个普通用户,首次接触到 AI 的数据层的时候十分不解,不清楚其中的必要性。带着这个好奇,我仔细研读了 Grass 的设计理念。
因为 Grass 网络要处理和存储海量的数据,尤其是实时数据,这种规模的数据处理需求远远超过了传统链上处理能力的限制。如果所有数据都直接在主链上处理,即使再高 TPS 的网络,也将面临严重的拥堵问题,导致效率低下。
在区块链上进行操作通常伴随着高昂的成本,通过将大量的数据在链下进行处理和压缩,然后将处理后的结果提交到主链上。这大大减少了链上的数据负担,提高了整体处理效率。
此外,通过 ZK 处理器,敏感数据也获得了额外的隐私保护。再通过原数据的记录功能,Grass 也可能对优质的节点进行激励。
在通过 AI 数据层解决了可扩展性,成本和隐私问题之后。Grass 还推出了应用版节点,该节点使用的资源不到 Chromium 浏览器的 5%,但处理的带宽比 Chrome 扩展程序高出 10 倍。
不仅如此,Grass 还将会推出移动版和实体矿机,这意味着 Android 和 IOS 用户可以获取全天候的奖励。因为手机的便利性极有可能吸引许多 Web2 用户,大大扩展了 Grass 网络。而且由于电脑与手机 IP 地址不同,老用户还可以从手机端再获取一份额外的收益。
优质背景叠加高 PMF,潜力惊人
不仅是团队技术持续在线和社区持续追捧,已经拥有极高 PMF 的 Grass 其背后的资方背景同样强悍。
Grass 的母公司 Wynd Network 此前曾获得来自 Polychain Capital 和 Tribe Capital 的种子轮融资。不仅如此,因押注 Solana 而一直备受瞩目的 Multicoin 管理合伙人 Kyle Samani 则是参与了 Wynd Network 的 Pre 种子轮融资。
值得注意的是,Hack VC 也曾在文章里提及对 Grass 的投资,不确定这是否意味着 Grass 还有尚未披露的新一轮融资。
有社区成员预计。在 Grass TGE 后,当人们意识到通过 Grass 可以被动赚取大量金钱且没有任何风险时,那些错过 Grass 的人将会蜂拥而至。这意味着,发布后,潜在的和隐含的需求加上移动应用程序的推出,用户数量将急剧增加。根据增长率、吸引力因素和网络效应,Grass 可能会在一年内拥有 5000 万用户。
随着加密行业持续对新名词祛魅,营收成了大家关注的焦点。根据 House of Chimera 提供的,近三个月各类 DePIN 项目累计费用,io.net 和 Helium 分别累计了 50 万美元,Akash 则获得了 20 万美元费用。
获取真实收入这个老大难问题,对于 Grass 来说,似乎并不构成什么挑战。就以上文提到的 Reddit 数据集 UpvoteWeb 为例,与此类似的数据集,Google 则需要支付 6000 万才可以获取。
与 Web2 赛道中数据抓取和代理服务领域处于领先地位的 Bright Data 相比。不论是从 Data for AI 的每条记录 0.001 美元算起,还是从 Perplexity 获取到的 500 万次请求 15000 美元的标准来算,Grass 获取的 6 亿 Reddit 数据集都价值不菲。
更别提 Reddit 本身从 2023 年 7 月开始,将 API 费用设定为每 1,000 次调用 0.24 美元的新政策了。要知道,以上的数据还仅仅是 Grass 没有推出代币,没有上线移动版本和专属矿机的情况下。一旦 Grass 形成了更强的网络效应,一切数据都要再次更新。
对于具有网络效应的系统,时间非常重要。Grass 已经在加密甚至 AI 领域建立了足够广泛的用户基础和技术积累。期待其飞轮能进一步发展,成为真正的 AI 数据层。
正如同 Grass 为社区举办的 TOUCH GRASS 挑战一样传递出的美好愿景,让 Grass 成为 AI 时代的数据图谱,将中心化企业的利益过度给更多的用户,给 Grass 社区成员更多 Touch Grass 的时间。