在日常场景中,哪个平台最适合作为AI助手的运行环境?我们通过一场实际对比找到了答案。
使用 AI Decrypt 创建的图像
AI助手的用途广泛:从文档搜索到代码生成,从网页抓取到深度数据分析,你甚至可以组建一个虚拟办公室,拥有多个专职助手协同工作,为你处理各类事务。
那么,实现这一切有多复杂呢?假如一个普通用户希望打造自己的AI财务顾问,哪个平台对他们最友好呢?无需学习API、编程或使用Github——我们专注于评估哪家AI公司能让用户在没有技术背景的情况下轻松完成任务。
当然,一分付出,一分收获。在这种情况下,我们还希望探讨一个非技术用户在设置代理时的难易程度是否与各个平台的结果质量存在关联。
实验中,我们挑选了五大主流平台:ChatGPT、Claude、Huggingface、Mistral AI 和 Gemini,给它们下达了相同的任务:构建一个AI财务顾问。
测试目标很明确:探讨这些平台的“即插即用”功能,评估它们是否能有效应对常见任务(例如,帮助用户平衡25,000美元的投资和30,000美元的债务),以及在分析交易图表时的表现。为了确保公平,我们只使用了最基础的功能,避免依赖额外工具。
以下是我们的发现以及对模型进行排名的优化方式的总结:
平台排名1)OpenAI的GPT(评分:8.5/10)
易用性:4/5结果质量:4.5/5
ChatGPT提供了功能丰富且平衡的解决方案,不论是完全新手还是有一定经验的用户都能从中获益。
尽管最近的界面更新将部分功能隐藏在菜单中,该平台依然擅长将复杂的用户需求转化为功能代理。我们测试了一个以财务顾问为目标的模型,结果显示它展现了出色的情境意识和结构化的解决问题能力,能够为债务管理和投资分配提供详细且连贯的策略。
2) Google Gemini (评分:7/10)
易用性:4/5结果质量:3/5
Gemini以直观的界面和可靠的错误处理表现突出,但需要用户提供更详尽的指令才能获得理想结果。
该代理人在提供财务建议时注重在提出具体建议前收集全面的背景信息,这一咨询方法与专业实践相一致。然而,其在零样本情况下的响应可能显得过于保守。
3) HuggingChat (评分:6.5/10)
易用性:2/5结果质量:4.5/5
作为一个开源平台,HuggingChat提供了高度的自定义和模型选择功能,非常适合喜欢深入调整的高级用户。然而,对于追求简单的初学者来说,可能过于复杂。(可以将其想象为比较 Linux 系统与 macOS 系统)。其复杂的时间框架设计与实用的工具集成体现了其先进的功能性。
我们使用Nvidia的Nemomotron作为基础模型创建了一个AI助手,虽然缺乏附加功能,但输出质量可以媲美ChatGPT。这对开源阵营而言,是相当不错的表现。
4)Claude (评分:5.5/10)
易用性:2.5/5结果质量:3/5
Anthropic的平台在特定领域表现出色,特别是在需要大量上下文处理和代码解释的任务中。其简约的界面掩盖了其复杂功能,但“可选”指令字段可能会让用户感到困惑。
我们的代理在提供建议时非常保守且模糊,但表现出了稳健的风险意识和战略思维。需要更细致的提示才能真正激发其潜力,但为了测试的公平性,我们没有调整提示。
5) Mistral AI (评分:5/10)
易用性:2.5/5结果质量:2.5/5
这个法国平台提供了独特的基于示例的学习和深度定制选项。然而,其面向开发者的界面以及偶尔的语言切换问题为非技术用户带来了障碍。此外,需要为不同任务调整代理的配置,例如分析图像或处理代码,这并不理想。
我们构建的财务顾问在交互设计方面显示出潜力,但在基本的数学验证上表现不佳,提供了最差的输出。这并不是说输出完全不行,但在零基础测试中,这个平台的表现是最不令人满意的。
总结综合比较来看,每个平台各有优劣,具体选择需要视用户需求而定。如果能够花时间调整提示并熟悉平台特性,某些平台的表现可能会超越排名较高的平台。最终,所有语言模型都有各自特定的提示风格。
如果您想更多地了解我们排名背后的基本原理,请更深入地了解我们的经验以及我们与代理商获得的结果。我们配置了所有的代理,使用相同的系统提示,无任何额外参数或功能,问了它们一个基本问题:“我有25,000美元的可投资金,但同时有30,000美元的债务,请为我制定一个财务计划。”
Open AI
ChatGPT的界面最近进行了更新,但实际上让操作变得更加复杂。GPT的创建选项现在隐藏在菜单中,但一旦找到,它提供了两种路径:一个由AI帮助构建代理的会话设置方式,以及适合明确知道自己需求的用户的手动配置方式。
OpenAI的GPT平台功能丰富,堪称“瑞士军刀”——它能读取代码、搜索网页,还能处理图像生成和分析功能。AI引导的设置过程特别适合新手,但对寻求精细控制的高级用户来说可能感觉限制较多。(例如,如果提示模型更具体或更详细,可能会改变整个系统提示,从而导致更差的结果。)
在实际使用代理时,ChatGPT非常简单直观,界面清晰易懂。
代理本身能够原生读取文档和理解图像,这一点相较于其他平台是一个优势。
关于使用基础提示创建代理的质量问题,我们的财务顾问“MoneyGPT”给出了令人印象深刻的表现,展示了结构化问题解决的高超技巧。
除了准确的分配建议——“$20,000用于高利率债务”和详细的投资组合分配——该代理还表现出复杂的财务推理能力。它提供了一个五步计划,这不仅仅是一个清单,而是一个连贯的战略,既考虑到当前需求,也关注长期规划。
代理的强项在于能够在细节和上下文之间找到平衡。例如,在推荐具体投资(40% S&P 500、30% 债券)时,它还解释了背后的逻辑:“偿还高利率债务相当于获得了保证的投资回报率。”这种情境意识还体现在长期规划上,建议定期审查周期和基于变化调整的策略。
然而,信息过多可能是其潜在的弱点:虽然技术上非常全面,但快速给出具体分配、投资策略和监控计划,可能会让财务新手感到不知所措。
您可以阅读其完整计划 这里,您可以通过单击来使用它 这个链接。我们强烈推荐。
Google
总体来看,Google的Gemini平台凭借其精致、直观的界面在“颜值比赛”中获胜,这让代理创建变得几乎“太容易了”。系统严格按照指令操作,这有助于避免混乱,而其简洁的用户界面则消除了AI开发的恐惧感。
然而,它需要更详细的提示才能获得良好的结果。它不会默认做出假设:如果提示过于简短,响应质量就会较低。
在功能上,Gemini具有强大的底层能力,包括Google驱动的网页搜索集成、代码分析和与ChatGPT相当的图像处理能力,但大部分依赖于微软的技术支持。
Gemini的界面设计体现了对用户体验的深刻理解。界面布局清晰,所有功能都集中在一个屏幕上。
这种精致的设计对新手特别友好,但对于更有经验的用户来说,可能会感觉缺乏更深入的控制。
我们为其创建的代理“MoneyGem”提供了一种咨询式的方法,展示了Google独特的问题解决思路。它没有直接给出答案,而是首先提出了一些问题,例如“这是什么类型的债务?”以及“你的利率是多少?”——这表明它对财务建议的个性化有深入理解。
然而,这种强调上下文收集的方法可能会让想要快速得到答案的用户感到沮丧。
在零基础测试中,Gemini的响应并不理想。代理基本上表示它对用户了解不够,无法提供准确的建议。在我们要求其假设一些常见场景并提供一个普适计划后,它生成了一份非常保守的草案,没有具体的投资建议。
尽管如此,MoneyGem在回答的最后提出了一些有价值的建议,比如建议最大化使用税收优惠账户(如401(k)或Roth IRA)以降低税负,这一点值得称赞。
您可以点击 这里 要阅读我们与 MoneyGem 的互动,并通过单击亲自尝试该模型 这个链接。
Mistral AI
Mistral的代理创建流程不算简便,工具隐藏在开发者控制台中,提供了丰富的自定义选项。对于新手来说,这可能让人望而却步,但对喜欢折腾的技术爱好者却充满吸引力。
代理创建界面并不直接集成在其聊天机器人界面(LeChat)中,而是在创建完成后才会显示。
一个值得称道的功能是,用户可以通过示例来影响代理的行为和回答风格,这是其他平台目前尚不具备的独特优势。不过,我们在使用过程中遇到了一个令人困惑的小问题:界面突然切换成法语,可能因为Mistral是一家法国公司,而我们无法切换回其他语言。
一旦代理创建完成,用户需要退出开发者界面,进入聊天界面调用代理,这一流程设计不够直观。但调用后的交互界面与普通AI聊天机器人类似,使用起来还算方便。
我们创建了一个名为“Le Money”的代理,以向Mistral的法国背景致敬。它的表现清楚地反映了Mistral在通用问题解决中的方法。其建议“留出$10,000作为应急资金,$15,000用于偿还债务,$10,000用于投资”看似简单直接,但却缺乏基本的数学验证能力。
这个计划的总金额($35,000)超出了可用资金($25,000)整整$10,000,这是一些语言模型在优先考虑概念正确性而非数值精确性时会犯的常见错误。
需要指出的是,表现最佳的语言模型已经在这一方面取得了很大进步,至少不像Mistral这样经常犯错。
除此之外,它的计划虽然不够详细,但却是唯一一个提供后续问题以使交互更加流畅的平台,这有助于更好地了解用户需求。
LeMoney 的完整计划现已推出 这里 并且代理可供测试 这里。
Anthropic
Claude的项目看起来更像是一个复杂的任务执行系统,而不是一个代理创建平台。界面极其简约,甚至有点过于简约,显得不够直观。
这种极简的界面可能会让一些用户感到困惑。平台的设置界面十分基础,并带有一个“可选”指令字段——这个字段既显得无关紧要,却又十分关键:如果指令是“可选”的,那AI代理如何知道它具体要做什么呢?
Claude的极简界面确实有些怪异,但Anthropic一向不是以UI设计著称。用于配置模型的窗口也是用来输入提示的窗口。它的功能主要集中在文本和代码解释上。诸如网页搜索、图像处理和生成等“花哨”的功能则由其他竞争对手提供。
我们创建的代理“MoneyClaude”因Anthropic不允许公开测试而无法向公众开放。它在提供财务建议时采取了非常保守的立场,虽然技术上准确,但回答相当模糊,例如:“在债务减少和必要储蓄之间保持平衡。”
它虽然要求额外的信息,但至少在没有进一步交互的情况下,提供了一个非常通用的策略,这种方式似乎比Google的上下文收集方法更为高效。
单击此处阅读其 完整计划。
Hugging Face
作为一个开源平台,Hugging Face是高级用户的天堂,但对初学者来说可能是一场噩梦。它是唯一允许用户选择自己喜欢的语言模型的平台,提供了前所未有的控制权。
此外,用户可以为他们的代理集成几十种不同的工具,但一次只能激活其中三种。这种限制迫使用户仔细考虑哪些功能对每个具体用例最为重要,但这是其他平台无法提供的独特功Hugging Face的整体体验是所有平台中最具自定义性的。
然而,这种高度的可调性伴随着繁琐的设置步骤。对于那些清楚自己需求的用户,这个平台可以创建比竞争对手更强大的专用代理,但对于毫无经验的用户来说,可能非常令人困惑。用户可以尝试使用他们的代理 Hugging Chat——实现高级用户的梦想。创建代理后,使用它就非常简单。界面显示一张大卡片,上面有特工的姓名、描述和照片。它还允许用户共享代理的链接并调整其设置,所有这些都可以通过卡片进行。
我们测试的代理“HuggingMoney”展现了其独特的时间范围框架,显示了对财务规划心理学的更深理解。它将规划分为三个阶段:“短期(0-24个月)、中期(24-60个月)、长期(超过60个月)”,这种方法与专业财务规划实践一致。
它的建议是:“将$0-$5,000投入流动性高、风险低的投资工具,同时每月保持$1,000-$1,500的积极还款计划。”从表面上看,这展示了它在现金流管理方面的细腻理解。
另一个有趣的功能是它结合了实用工具与理论建议。例如,它不仅推荐了50/30/20规则,还推荐了具体的预算应用程序,并强调了税收优化的重要性,这在高层次策略和日常执行之间架起了一座桥梁。然而,它的主要缺点在于对用户情况的假设较多,比如没有询问债务利率而直接给出建议。在试图提供有用建议的同时,它可能忽略了一些必要的背景信息。虽然可以通过调整提示改善这一点,但这是用户需要注意的问题。
您可以点击 这里阅读 HuggingMoney 的完整计划。另外,您可以尝试一下 点击这个链接。
免责声明:
本文转载自【Decrypt】,所有版权归原作者【Jose Antonio Lanz】所有。如对转载内容有异议,请联系 Gate Learn 团队,他们将及时处理。责任声明:本文中表达的观点和意见仅代表作者个人观点,不构成投资建议。Gate Learn 团队对本文进行了翻译。未经许可,禁止复制、分发或抄袭翻译内容。