数据是这个时代的数字黄金,因为在这个时代,注意力在线上。2024年全球平均屏幕使用时间为每天6小时40分钟,比往年有所增加。在美国,平均使用时间甚至更高,达到了每天7小时3分钟。
在如此高的参与度下,产生的数据量是惊人的——2024年每天产生328.77百万TB的数据。当考虑到所有新生成、捕获、复制或消费的数据时,这大约是每天0.4泽字节(ZB)。
然而,尽管每天产生和消费的数据量巨大,用户实际上拥有的数据却极少:
社交媒体:像Twitter、Instagram等平台上的数据由公司控制,尽管这些数据是由用户生成的。物联网(IoT):智能设备的数据通常归设备制造商或服务提供商所有,除非有特定的协议另行规定。健康数据:虽然个人拥有自己的医疗记录的权利,但来自健康应用或可穿戴设备的数据大部分由提供这些服务的公司控制。
加密货币和社交数据在加密领域,我们看到@_kaitoai的崛起,它将Twitter上的社交数据进行索引,并将其转化为项目、KOL和思想领袖可操作的情感数据。Kaito团队因其增长黑客经验(他们流行的mindshare和yapper仪表盘)以及在Crypto Twitter上吸引有机兴趣的能力,而使“yap”和“mindshare”这两个词广为流传。
“Yap”旨在激励Twitter上的优质内容创作,但仍然有许多问题没有解答:
“yap”是如何被打分的?提到Kaito是否能获得额外的yap?Kaito真的奖励优质内容吗,还是偏爱有争议的热点话题?
除了社交数据之外,关于数据所有权、隐私和透明度的讨论也愈加激烈。随着AI的迅速发展,新的问题浮现:谁拥有用于训练AI模型的数据?谁从AI生成的输出中受益?
这些问题为Web3数据层的崛起奠定了基础——这是一个朝着用户拥有、去中心化数据生态系统转变的过程。
数据层的兴起在 Web3 中,数据层、协议和基础设施的生态系统正在不断发展,重点是实现个人数据主权 —— 即让个人对其数据拥有更多控制权,并提供将数据变现的选项。
Vana
@vana 的核心使命是让用户控制他们的数据,特别是在 AI 领域,数据对训练模型至关重要。Vana 推出了 DataDAO,这是一种社区驱动的实体,用户将数据汇集在一起,以便集体受益。每个 DataDAO 专注于一个特定的数据集:
r/datadao:专注于 Reddit 用户数据,使用户能够控制和变现他们的贡献。Volara:处理 Twitter 数据,允许用户从他们的社交媒体活动中获益。DNA DAO:旨在管理遗传数据,同时注重隐私和所有权。
Vana 将数据代币化为可交易资产,称为 “DLP”。每个 DLP 聚合一个特定领域的数据,用户可以将代币质押到这些池中以获得奖励,排名前列的池会根据社区支持和数据质量获得奖励。
Vana 的独特之处在于其简便的数据贡献方式。用户只需:
选择一个 DataDAO通过 API 集成或手动上传数据赚取 DataDAO 代币和 $VANA 作为奖励
Ocean Protocol
@oceanprotocol 是一个去中心化的数据市场,允许数据提供者共享、出售或授权他们的数据,同时消费者可以将其用于 AI 和研究。Ocean Protocol 使用 “数据代币” (ERC-20 代币)来表示对数据集的访问权限,使数据提供者在保持对访问条件控制的同时,能够将数据变现。
Ocean 上交易的数据类型:
公共数据:例如天气信息、公共人口统计数据或历史股市数据 —— 对 AI 训练和研究非常有价值。私人数据:医疗记录、金融交易、物联网传感器数据或个性化用户数据 —— 需要严格的隐私控制。
“计算即数据” 是 Ocean 的另一个关键功能,允许在不移动数据的情况下进行计算,确保敏感数据集的隐私和安全。
Masa
@getmasafi 专注于创建一个开放层,用于 AI 训练数据,提供实时、高质量、低成本的数据供 AI 代理和开发者使用。Masa 在 Bittensor 网络上推出了两个子网:
Subnet 42 (SN42):每天聚合和处理数百万条数据记录,为 AI 代理和应用开发提供基础。Subnet 59 (SN59) – “AI 代理竞技场”:这是一个竞争环境,在这里由 SN42 提供实时数据支持的 AI 代理根据表现指标(如认知度、用户参与度和自我提升)争夺 $TAO 奖励。
Masa 与 @virtuals_io 合作,赋能 Virtuals 代理实时数据能力。同时,还推出了 $TAOCAT,展示其能力(目前在 Binance Alpha 上线)。
Open Ledger
@OpenledgerHQ 正在构建一个专门为数据设计的区块链,特别适用于 AI 和 ML 应用,确保数据管理的安全、去中心化和可验证性。主要亮点:
Datanets:OpenLedger 内的专门数据源网络,策划和丰富现实世界数据,用于 AI 应用。SLMs:专为特定行业或应用定制的 AI 模型。其目标是提供更适合特定应用场景的高精度模型,同时具备隐私合规性,并减少在通用模型中常见的偏见。数据验证:确保用于训练专业语言模型(SLMs)的数据的准确性和可靠性,以保证特定应用场景下的准确性和可靠性。
AI 训练数据的需求为了推动 AI 和自主代理的发展,对高质量数据的需求正在急剧上升。除了初步训练,AI 代理还需要实时数据来进行持续学习和适应。
关键挑战与机遇:
数据质量胜过数量:AI 模型需要高质量、多样化且相关的数据,以避免偏见或性能不佳。数据主权与隐私:正如 Vana 所示,推动用户拥有并变现数据的趋势正在兴起,这可能会重塑 AI 训练数据的获取方式。合成数据:随着隐私问题的关注,合成数据正在成为一种训练 AI 模型的方式,同时解决伦理问题。数据市场:数据市场(中心化与去中心化)的兴起正在创造一个数据可交易的经济体系。AI 数据管理:AI 现在被用来管理、清理和增强数据集,从而提高用于 AI 训练的数据质量。
随着 AI 代理变得更加自主,它们访问和处理实时、高质量数据的能力将决定其效能。这个不断增长的需求催生了专门面向 AI 代理的数据市场——在这些市场中,人工和 AI 代理都能获取高质量的 AI 代理数据
Web3 代理数据市场
@cookiedotfun 聚合了 AI 代理的社交情绪和与代币相关的数据,并将其转化为可供人工和 AI 代理行动的洞察。Cookie DataSwarm API 允许 AI 代理访问当前的高质量数据,获取与交易相关的见解——这是加密领域中最受欢迎的应用之一。Cookie 拥有 20 万月活跃用户(MAU)和 2 万日活跃用户(DAU),使其成为最大的 AI 代理数据市场之一,$COOKIE 代币居中。
其他关键参与者:
@GoatIndexAI 专注于 Solana 生态系统的见解。@Decentralisedco 专注于利基数据仪表盘,如 GitHub 仓库和项目特定的分析。
总结第一部分这仅仅是一个开始。第二部分将深入探讨:
数据经济中不断发展的挑战与机遇合成数据在AI训练中的作用数据隐私问题及其解决方式去中心化AI训练的未来
谁控制数据将塑造未来,而在这一领域构建的项目将决定在AI时代数据的所有权、共享和变现方式。随着对高质量数据需求的持续增长,打造一个更加透明、以用户为主的数据经济的竞争才刚刚开始。
敬请关注第二部分!
个人备注:感谢阅读!如果你在加密AI领域并希望联系,随时可以发我私信。如果你想推介一个项目,请使用我简介中的表单——它优先于私信。
免责声明:本文件仅供信息和娱乐目的使用。文中表达的观点并不构成投资建议或推荐,不应被解读为投资建议。接收本文件的人应进行尽职调查,考虑其具体的财务状况、投资目标和风险承受能力(本文件中未涉及这些内容)后再做投资决策。本文件不是买卖本文中提到的任何资产的要约或招揽。
声明:
本文转载自【X】,著作权归属原作者【@Defi0xJeff】,如对转载有异议,请联系 Gate Learn 团队,团队会根据相关流程尽速处理。免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。文章其他语言版本由 Gate Learn 团队翻译, 除非另有说明,否则不得复制、传播或抄袭经翻译文章。