欧易

您数字货币与 Web3的直通车

数字货币交易和 Web3 - 为您轻松实现

欧易交易所
当前位置:首页-资讯-详情

这项苹果人工智能研究表明 ChatGPT 和其他聊天机器人实际上无法推理

OpenAI 和 Google 等公司会告诉您,生成式 AI 体验的下一个重大进步即将到来。 ChatGPT 的 o1-preview 重大升级旨在证明下一代体验。 o1-preview 可供 ChatGPT Plus 和其他高级订阅者使用,据说可以推理。当试图找到需要复杂推理的复杂问题的解决方案时,这样的人工智能工具应该更有用。

但如果苹果研究人员的一篇新的人工智能论文的结论是正确的,那么 ChatGPT o1 和所有其他 genAI 模型实际上无法推理。相反,他们只是简单地匹配训练数据集中的模式。是的,他们非常擅长提出解决方案和答案。但这只是因为他们见过类似的问题并且能够预测答案。

苹果的人工智能研究表明,改变数学问题中不会愚弄孩子的琐碎变量或添加不会改变解决问题方式的文本可以显着影响大型语言模型的推理性能。

Apple 的研究可通过此链接作为预印本版本,详细介绍了研究人员进行的实验类型,以了解不同法学硕士的推理性能有何不同。他们研究了 Llama、Phi、Gemma 和 Mistral 等开源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等专有模型。

各种测试的结论都是相同的:法学硕士无法真正推理。相反,他们试图复制他们在训练期间可能看到的推理步骤。

科学家们开发了 GSM8K 基准测试的一个版本,这是一组用于测试人工智能模型的 8000 多个小学数学应用题。 Apple 的测试称为 GSM-Symbolic,涉及对数学问题进行简单的更改,例如修改角色的名称、关系和数字。

以下推文中的图片提供了一个示例。 “苏菲”是一道数玩具题的主角。用其他名称替换名称并更改数字不应改变 ChatGPT 等推理 AI 模型的性能。毕竟,改变这些细节,小学生也能解决问题。

Apple 科学家表明,在处理 GSM-Symbolic 测试时,所有模型的平均准确度下降了 10%。一些模型的表现比其他模型更好,GPT-4o 的准确率从 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。

这并不是苹果公司进行的唯一测试。他们还向人工智能提出了数学问题,其中包含与解决问题并不真正相关的陈述。

这是人工智能必须解决的原始问题:

这是它的一个版本,其中包含一个无关紧要的陈述,即有些猕猴桃比其他猕猴桃要小:

两种情况的结果应该是相同的,但法学硕士从总数中减去了较小的奇异果。显然,如果你是一个具有推理能力的人工智能,你就不会数较小的水果。

将这些“看似相关但最终无关紧要的陈述”添加到 GSM-Symbolic 模板中会导致法学硕士“灾难性的表现下降”。某些型号的性能下降了 65%。即使是 o1-preview 也遇到了困难,与 GSM8K 相比,性能下降了 17.5%。

有趣的是,我用 o1-preview 测试了同样的问题,ChatGPT 能够推断出所有水果都是可数的,尽管它们的大小。

ChatGPT o1-preview 解决了 kiwi 问题。图片来源:Chris Smith,BGR

苹果研究员 Mehrdad Farajtabar 在 X 上有一个帖子,涵盖了苹果为新的 GSM-Symbolic 基准测试所做的更改,其中包括更多示例。它还涵盖了准确性的变化。您可以在此链接中找到完整的研究。

苹果并没有在这里追赶竞争对手;它只是试图确定当前的 genAI 技术是否允许这些法学硕士进行推理。值得注意的是,苹果还没有准备好提供可以推理的 ChatGPT 替代方案。

也就是说,看看 OpenAI、谷歌、Meta 和其他公司未来如何挑战苹果的发现将会很有趣。也许他们会设计其他方法来衡量他们的人工智能并证明他们可以推理。如果有的话,苹果的数据可能会被用来改变法学硕士的推理训练方式,特别是在需要准确性的领域。

相关报道

日本内容代币化平台Questry在Pre-A轮融资上半阶段筹集约180万美元 2025-07-01

日本内容代币化平台Questry在Pre-A轮融资上半阶段筹集约180万美元

PANews6月30日消息,据CoinDesk报道,日本内容代币化平台Questry宣布其已在Pre-A轮融资的上半阶段筹集到了2.6亿日元(约180万美元)资金,已从BrandNewRetailIn...

Read More
Robinhood拟将支持的代币化美股种类到年底扩展至“数千种” 2025-07-01

Robinhood拟将支持的代币化美股种类到年底扩展至“数千种”

PANews6月30日消息,据FSMN报道,Robinhood首席执行官在主题演讲中称,公司将把美国股票的代币化交易从目前的200种,在今年年底前扩展至“数千种”。此前消息,Robinhood计划推出...

Read More
全球加密正当时:一览加密监管世界地图 2025-06-30

全球加密正当时:一览加密监管世界地图

一同展开加密监管世界地图,探寻这场全球监管浪潮下的隐秘脉络。

Read More
代币与股权 Battle:链上主权 vs 监管束缚,加密经济如何重构? 2025-06-30

代币与股权 Battle:链上主权 vs 监管束缚,加密经济如何重构?

被 SEC「捆住手脚」的代币,能否挣脱监管迷雾,重新定义数字财产的自主所有权?

Read More
继 Spark 后,Sky 押注 Grove,RWA 新贵登场? 2025-06-30

继 Spark 后,Sky 押注 Grove,RWA 新贵登场?

Grove 获 Sky 10 亿美元注资,会带来像 Spark 一样的财富效应吗?

Read More
高盛交易员:最明智的投资不是确定性,而是塑造未来的力量 2025-06-30

高盛交易员:最明智的投资不是确定性,而是塑造未来的力量

Schiavone 认为,在一个由信念塑造、想象加速、并因反复货币干预而不稳定的世界里,最明智投资不是确定性(债券),而是塑造未来的力量。

Read More

立即创建 账号,开始交易!

创建账号