在 9.11 和 9.8 谁更大上 OpenAI 最新的大模型 OpenAI o1 也翻车了

【天顺财经】9 月 13 日消息，据外媒报道，在今年 7 月份，也就是在 OpenAI 推出新一代旗舰大模型 GPT-4o 之后约两个月，国外有用户在社交媒体上爆料称自己在 ChatGPT 4o 上询问 9.11 和 9.9 哪一个大（9.11and9.9—which is bigger？）时， ChatGPT 4o 笃定的回答 9.11 比 9.9 大（9.11 is bigger than 9.9），OpenAI 当时最强模型 GPT-4o 加持下的 ChatGPT 4o，在这一问题上给出如此离奇的回答也让外界震惊不已。

而随后有用户的测试发现，不只是 GPT-4o 加持下的 ChatGPT 4o，谷歌 Gemini Advanced、Claude 3.5 Sonnet 这两款国外知名的大模型在这一问题上也相继翻车，国内也有多家厂商的大模型未能幸免。

除了 9.11 和 9.9，也有相关媒体对其他的数字进行测试，比如 9.11 和 9.8，结果显示也有多家厂商的大模型翻车。

在 OpenAI 当地时间周四推出较以往的模型更注重推理，在奥数、编程竞赛中的表现都远强于 GPT-4o 的 OpenAI o1 系列大模型之后，也有好奇的用户再次对这一问题进行了测试。

但让人意外的是，号称有更强推理能力、数学和编程方面表现出色的 OpenAI o1，也未能避免翻车。

有测试显示，在询问 9.11 和 9.8 谁更大这一问题时，OpenAI o1 预览版在经过 14 秒的思考后，还是给出了 9.11 更大的结果，而给出的原因竟是因为 9.11 比 9.8 大。

就显示的内容来看，OpenAI o1 预览版在比较 9.11 和 9.8 谁更大时，进行了比较数值大小、对比数值大小、对比大小、比较两个数值这 4 个方面的思考，但除了对比数值大小、对比大小是 9.8 大于 9.11，另外两个方面都是 9.11 大于 9.8。不过在对比数值大小这一项中，显示的是「蒙特认为 9.8 大于 9.11，9.8 显示出数学上的优越性。」（海蓝）

在 9.11 和 9.8 谁更大上 OpenAI 最新的大模型 OpenAI o1 也翻车了

推荐阅读

北京金至尊现在黄金价格多少一克（2025 年 6 月 13 日）

美国房屋建筑商信心降至 2022 年以来最低水平

机构称四年内中国机器人市场规模有望翻倍，机器人 ETF 易方达（159530）助力布局产业前沿机遇

一文读懂：日债「海啸」是如何波及全球的？

「零公里二手车」调查：新车落地打七折，厂商「月刷」3000 辆

在 9.11 和 9.8 谁更大上 OpenAI 最新的大模型 OpenAI o1 也翻车了

推荐阅读

北京金至尊现在黄金价格多少一克 （2025 年 6 月 13 日）

美国房屋建筑商信心降至 2022 年以来最低水平

机构称四年内中国机器人市场规模有望翻倍，机器人 ETF 易方达 （159530） 助力布局产业前沿机遇

一文读懂：日债 「海啸」 是如何波及全球的？

「零公里二手车」 调查：新车落地打七折，厂商 「月刷」3000 辆

北京金至尊现在黄金价格多少一克（2025 年 6 月 13 日）

机构称四年内中国机器人市场规模有望翻倍，机器人 ETF 易方达（159530）助力布局产业前沿机遇

一文读懂：日债「海啸」是如何波及全球的？

「零公里二手车」调查：新车落地打七折，厂商「月刷」3000 辆