【TechWeb】7 月 18 日消息,这两天又一件事吵得沸沸扬扬:包括 ChatGPT 4o、谷歌 Gemini Advanced、Claude 3.5 Sonnet 在内的很多 SOTA 大模型王者在回答 「9.9 和 9.11 谁更大」 的问题时纷纷翻车。这让大家大跌眼镜,人工智能还是人工智障的说法再次卷土重来。
360 创始人周鸿祎对该热门话题也发表了自己的观点,他认为:「不要低估大模型未来发展的潜力,但是不要高估大模型现在的实力 「,」 不要因为这个事就对大模型表示失望。这恰恰说明了其实大模型跟人的大脑是非常像的,它并不是万能的。」
同时,周鸿祎还解释了大模型为什么不识数、并给出了解决大模型不识数问题的解决方案。
大模型为什么不识数?
周鸿祎认为,大模型现在还是有很多的缺点,不认识 「9.11 和 9.9 谁大」,就是一个典型的例子。
「看了几个大模型输出的答案,差不多都在胡言乱语,为什么呢?」 周鸿祎简单解释了为什么大模型会认为 9.1 比 9.9 大。
他认为:第一个问题:「其实大模型的全称叫大语言模型,它首先解决的是对人类自然语言理解的问题。所以大模型把 9.9 和 9.11 并没有当成一个数字来看,而是把它们分成了两个 token。没有经过专门特别的提示和训练,大模型是不懂阿拉伯数字,也不懂数学,所以大模型是按照一个文字的逻辑来进行对比。所以 9 前面是一样大的,那么 11 比 9 要大,所以就得出来 9.11 比 9.9 要大。」
周鸿祎还举了个例子:这就好比你小时候上私塾只学了四书五经,一点数学算数都没学。那出一个这样的小数题你当然就不会了。
第二个问题就是对提示词的依赖。也就是说你跟人工智能提要求的时候,如果都是聊天机器人的界面,你的说法不一样,那大模型的反应是不一样的。就好像一个问题换了种问法,有时候大模型就很聪明,有时候大模型就很笨。这恰恰说明了通过自然语言跟大模型来交流交互,在有些情况下是一种非常不靠谱的方式。比如也有人说换一种问法大模型就会了,比如说把 9.9 和 9.11 放在前面,再问谁大谁小,而不是先问谁大谁小,然后把 9.11 和 9.9 放在后面。
怎么解决大模型不识数的问题?
「这也恰恰说明了光靠大模型是解决不了企业政府的很多实际的工作和生产上的问题,需要和其他技术相结合 「,周鸿祎认为,其实解决这个问题也很简单,有三种做法。
第一种方法,就是要教会大模型数学,就要把很多数学知识进行专门的训练。就像我们小学上了语文之后,还要学算数一样。有了这样专门的训这样的专业模型,就可以正确的回答这个问题。
第二个解决问题的方法,是像 360AI 搜索一样,就利用搜索和知识推理相结合。
周鸿祎称,刚才试看了一下 360 大模型的回答,实际上也是不准确的。但是跟 360AI 搜索结合在一起,通过全网搜索类似的答案,再加上大模型的理解,相当于是现找答案,然后现教大模型,那么答案就是对的。这也就是搜索增强或者知识对齐。
第三种方法实际上调用 API。比如说如果大模型能够识别这是一个数学题,但是它不会解。没关系,利用函数调用的方式去调比如说一个数学网站的 API,比如说有很多类似的这种数学网站,可以准确的告诉你 9.9 和 9.11 谁大谁小。
还有一种最简单的做法,为什么大模型现在都要学编程呢?因为编程就好比是大模型给了一个计算器,那你出了一道数学题,虽然我不会回答,但是如果我手上有个计算器,那我就能回答。所以有了大模型会懂得调 pythons 语言,用 pythons 来写一个程序,让 pythons 来比一下 9.11 和 9.9 谁大。当然了,编程的程序结果如果是对的那也会得出正确的答案。
最后,周鸿祎给出了三点总结:
第一,大模型对自然语言的理解是它的基础。很多数学物理化学的这些专业知识他并不了解,这个很正常。大家不要惊讶,要学习这些知识还需要专业的模型训练。
第二,利用搜索可以把人类拥有的解题的经验和知识的推理相结合,实际上是一种可以单独用大模型更有效的一种方法。
第三,大模型作为一个聊天机器人,实际上直接在业务和工作上直接用是不现实的,一定需要给他增加各种能力的补强。比如说它能调用其他的工具,能自己编程序来算。实际上人类也是这样,如果给了人类一个很复杂的一堆数据,让人类凭着自己的头脑去总结数据的规律,人类也往往回答不正确。但是人类如果会编程序,或者手边有一个什么计算软件,那么用这个计算软件和工具就可以帮助人类得到正确的答案。所以大模型也需要外部工具的帮助。
」 所以不要因为这个事儿对大模型表示失望。这恰恰说明了其实大模型跟人的大脑是非常像的,它并不是万能的。人今天之所以能做很多工作,人本身是得到了很多第三方工具的帮助,包括计算机,包括计算器。「周鸿祎强调,」 希望不要因为这个事儿丧失你对人工智能的信心。「