2025 年 6 月 17 日 下午 11:24

「9.11 和 9.9 谁大」 难倒了国外三大旗舰模型,国内模型表现如何?


【TechWeb】7 月 17 日消息,一句 「9.11and9.9—which is bigger?」,问倒了国外三大旗舰大模型,同样问题问一遍国产旗舰大模型们,它们反应又如何呢?

近日,海外社交平台 X 上有人曝出了自己在 ChatGPT 4o 上询问 「9.11and9.9—which is bigger?」(9.11 和 9.9 哪个大?) 时,ChatGPT 4o 笃定的回答 「9.11 is bigger than 9.9.」(9.11 比 9.9 大)。能作文、能翻译、能读图……这么厉害的 GPT-4o 大模型居然被绊倒在这么简单的 「比大小」 问题上,这一下把大伙儿给整不会了。

于是,X 上大伙儿都开始各种测试,发现不仅 ChatGPT 4o 不行,谷歌 Gemini Advanced、Claude 3.5 Sonnet 这些 SOTA 模型王者在这题上都翻车了!

这一波风也吹到了国内,网友们就好奇,用国内大模型来解这题,结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的 Kimi,好未来九章大模型 9 款大模型全拉来答题。

这一波问下了,发现大厂的大模型 C 端产品腾讯元宝、阿里通义、字节豆包、百度文心一言,还有好未来的数学大模型九章都答对了。

但是,几款创业公司的大模型 C 端产品百小应、智谱清言、Kimi、万知都认为 「9.11 大于 9.9」。

在 「9.11 和 9.9 谁大」 这题上 ,国内大厂模型完胜创业公司模型了,也完胜国外三大旗舰模型。

具体看看各家表现:

Kimi 回答翻车

智谱清言回答错误,给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了 「9.11 大于 9.9」 的离谱答案。

九章大模型回答正确,也给出正确的分析过程:

以下,文心一言、通义、元宝、豆包都答对了,并且分析过程正确:



- Advertisement -spot_img

推荐阅读