AI不得了之三：一个例子看大语言模型的评估

大模型的幻觉问题逐渐被人发现，原来有时候大模型会一本正经的胡说八道。

从根子上说，幻觉问题很难避免。毕竟，大模型本质上就是对知识的压缩算法，而且是带有“失真”的压缩算法。所以，大模型在胡说八道的时候很可能自已以为所说的就是真理。

今天偶然用一个例子试了试国内的大模型，发现结果挺有意思。

引子

今天新买的魔改2080Ti 22G到货了，赶紧跑了一下ChatGLM2 6B，结果发现胡说八道的很严重：

作为名声最好的国产开源模型，感觉不应该啊，调了一下参数，结果好点了：

前面几个将领感觉还像模像样的，可是，百度一下细看，结果悲剧了，有的人根本不存在！

比如这个：

还有这个：

当然，也有好几个对的：

但不管怎么样，邓奶奶的名字也在里面就有点扯了。。。

好奇心驱使下，用同样的问题试了一下国产的这些大模型包括：

第一个，文心一言：

中规中矩，基本没毛病。

第二个，科大讯飞：

这两位因病去世，算不上牺牲吧。总体答案还可以，就是理解有点偏了。

第三个，百川：

这个，呃。。。百川这是要犯政治错误吗？

基本也可以证明，百川中文语料是不够的。

第四个，阿里，通义千问：

这个直接说抱歉了？有点无法理解。这个问题应该没那么复杂啊。

只能差评了，对不起阿里这大厂的名声和富贵。。。

最后还想试试腾讯，结果，人家不给我开账号，说还要审核。果然，最烂就是它了。。。

结果基本很明显，百度>讯飞>百川>阿里。腾讯呢？它还是算了吧。。。

结果基本符合实力，也符合预期。百度是少有的一直在真心做AI的公司，只是广告丑闻让它形象很难起来。科大也算用心，只不过，细节上还是有不小的差距。

真的没想到一个问题居然就能评出各大模型的优劣，有意思。

后面有空准备试试LLAMA2模型，不过本地只能跑7B的，或者13B的量化。

期待。。。

学习资料 blog 博客 docker aliyun wordpress WordPress 被黑 low code 低代码开源 jeecg boot 伙伴云表单大师 RobotFramework Python Selenium Docker AI 人工智能 VGG 图像识别 CNN 卷积神经网络 MLP 深度学习 Keras Tensorflow GFPGAN Stable Diffusion LLM 大语言模型 AIGC ChatGPT ChatGLM 文心一言 Llama2 llama.cpp