欧易

您数字货币与 Web3的直通车

数字货币交易和 Web3 - 为您轻松实现

欧易交易所
当前位置:首页-资讯-详情

这项苹果人工智能研究表明 ChatGPT 和其他聊天机器人实际上无法推理

OpenAI 和 Google 等公司会告诉您,生成式 AI 体验的下一个重大进步即将到来。 ChatGPT 的 o1-preview 重大升级旨在证明下一代体验。 o1-preview 可供 ChatGPT Plus 和其他高级订阅者使用,据说可以推理。当试图找到需要复杂推理的复杂问题的解决方案时,这样的人工智能工具应该更有用。

但如果苹果研究人员的一篇新的人工智能论文的结论是正确的,那么 ChatGPT o1 和所有其他 genAI 模型实际上无法推理。相反,他们只是简单地匹配训练数据集中的模式。是的,他们非常擅长提出解决方案和答案。但这只是因为他们见过类似的问题并且能够预测答案。

苹果的人工智能研究表明,改变数学问题中不会愚弄孩子的琐碎变量或添加不会改变解决问题方式的文本可以显着影响大型语言模型的推理性能。

Apple 的研究可通过此链接作为预印本版本,详细介绍了研究人员进行的实验类型,以了解不同法学硕士的推理性能有何不同。他们研究了 Llama、Phi、Gemma 和 Mistral 等开源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等专有模型。

各种测试的结论都是相同的:法学硕士无法真正推理。相反,他们试图复制他们在训练期间可能看到的推理步骤。

科学家们开发了 GSM8K 基准测试的一个版本,这是一组用于测试人工智能模型的 8000 多个小学数学应用题。 Apple 的测试称为 GSM-Symbolic,涉及对数学问题进行简单的更改,例如修改角色的名称、关系和数字。

以下推文中的图片提供了一个示例。 “苏菲”是一道数玩具题的主角。用其他名称替换名称并更改数字不应改变 ChatGPT 等推理 AI 模型的性能。毕竟,改变这些细节,小学生也能解决问题。

Apple 科学家表明,在处理 GSM-Symbolic 测试时,所有模型的平均准确度下降了 10%。一些模型的表现比其他模型更好,GPT-4o 的准确率从 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。

这并不是苹果公司进行的唯一测试。他们还向人工智能提出了数学问题,其中包含与解决问题并不真正相关的陈述。

这是人工智能必须解决的原始问题:

这是它的一个版本,其中包含一个无关紧要的陈述,即有些猕猴桃比其他猕猴桃要小:

两种情况的结果应该是相同的,但法学硕士从总数中减去了较小的奇异果。显然,如果你是一个具有推理能力的人工智能,你就不会数较小的水果。

将这些“看似相关但最终无关紧要的陈述”添加到 GSM-Symbolic 模板中会导致法学硕士“灾难性的表现下降”。某些型号的性能下降了 65%。即使是 o1-preview 也遇到了困难,与 GSM8K 相比,性能下降了 17.5%。

有趣的是,我用 o1-preview 测试了同样的问题,ChatGPT 能够推断出所有水果都是可数的,尽管它们的大小。

ChatGPT o1-preview 解决了 kiwi 问题。图片来源:Chris Smith,BGR

苹果研究员 Mehrdad Farajtabar 在 X 上有一个帖子,涵盖了苹果为新的 GSM-Symbolic 基准测试所做的更改,其中包括更多示例。它还涵盖了准确性的变化。您可以在此链接中找到完整的研究。

苹果并没有在这里追赶竞争对手;它只是试图确定当前的 genAI 技术是否允许这些法学硕士进行推理。值得注意的是,苹果还没有准备好提供可以推理的 ChatGPT 替代方案。

也就是说,看看 OpenAI、谷歌、Meta 和其他公司未来如何挑战苹果的发现将会很有趣。也许他们会设计其他方法来衡量他们的人工智能并证明他们可以推理。如果有的话,苹果的数据可能会被用来改变法学硕士的推理训练方式,特别是在需要准确性的领域。

相关报道

Wintermute CEO 自述:做市商不是新的“坏人”,人们需要一个被责怪的对象 2025-05-14

Wintermute CEO 自述:做市商不是新的“坏人”,人们需要一个被责怪的对象

“很多时候人们只是想找个能责怪的对象,而不是深入了解市场结构和流动性运作的机制。”

Read More
中美脱钩与 CeDeFi 崛起:2025 年全球金融新格局 2025-05-14

中美脱钩与 CeDeFi 崛起:2025 年全球金融新格局

全球流动性正在悄然汇聚于无边界的去中心化金融网络中。

Read More
Abraxas Capital近一周购入的ETH持仓已达5.61亿美元 2025-05-14

Abraxas Capital近一周购入的ETH持仓已达5.61亿美元

PANews5月14日消息,据Lookonchain监测,AbraxasCapital借入USDT来购买更多的以太坊,截止昨日的监测,以太坊的价格是2460美元,而现在它已突破了2700美元——涨幅约...

Read More
报告:Solana的DeFi生态已从公开、被动流动池转向私有执行DEX 2025-05-14

报告:Solana的DeFi生态已从公开、被动流动池转向私有执行DEX

PANews5月14日消息,PineAnalytics发布报告指出,Solana的DeFi生态已从公开、被动流动池转向私有执行DEX。SolFi、Obricv2和ZeroFi等新型DEX虽然不运营前端...

Read More
某“Hyperliquid高胜率巨鲸”昨天建仓的ETH已浮盈24.1万美元 2025-05-14

某“Hyperliquid高胜率巨鲸”昨天建仓的ETH已浮盈24.1万美元

PANews5月14日消息,据链上分析师@ai_9684xtpa监测,“Hyperliquid获利超2,112.8万美元的高胜率巨鲸”昨天建仓的ETH已浮盈24.1万美元(ETH已从当时的2457美元...

Read More
分析:缓慢的区块链治理使加密货币面临量子计算技术的威胁 2025-05-14

分析:缓慢的区块链治理使加密货币面临量子计算技术的威胁

PANews5月14日消息,据CoinDesk报道,QuipNetwork联合创始人ColtonDillion表示,量子计算技术可能对区块链安全构成实质性威胁。尽管该技术尚处早期阶段,但谷歌、微软等企...

Read More

立即创建 账号,开始交易!

创建账号