AI不得了之三:一个例子看大语言模型的评估

大模型的幻觉已经有所改善

Posted by 就是我啦 on October 9, 2023

AI不得了之三:一个例子看大语言模型的评估

大模型的幻觉问题逐渐被人发现,原来有时候大模型会一本正经的胡说八道。

从根子上说,幻觉问题很难避免。毕竟,大模型本质上就是对知识的压缩算法,而且是带有“失真”的压缩算法。所以,大模型在胡说八道的时候很可能自已以为所说的就是真理。

今天偶然用一个例子试了试国内的大模型,发现结果挺有意思。

引子

今天新买的魔改2080Ti 22G到货了,赶紧跑了一下ChatGLM2 6B,结果发现胡说八道的很严重:

image-20231009215114144

作为名声最好的国产开源模型,感觉不应该啊,调了一下参数,结果好点了:

image-20231009215301673

前面几个将领感觉还像模像样的,可是,百度一下细看,结果悲剧了,有的人根本不存在!

比如这个:

image-20231009215437501

还有这个:

image-20231009215512076

当然,也有好几个对的:

image-20231009215540717

但不管怎么样,邓奶奶的名字也在里面就有点扯了。。。

好奇心驱使下,用同样的问题试了一下国产的这些大模型包括:

  • 百度,文心一言
  • 阿里,通义千问
  • 百川,百川大模型
  • 科大讯飞,星火

测试结果

第一个,文心一言:

image-20231009215919061

中规中矩,基本没毛病。

第二个,科大讯飞:

image-20231009220012583

这两位因病去世,算不上牺牲吧。总体答案还可以,就是理解有点偏了。

第三个,百川:

image-20231009220044652

这个,呃。。。百川这是要犯政治错误吗?

基本也可以证明,百川中文语料是不够的。

第四个,阿里,通义千问:

image-20231009220354487

这个直接说抱歉了?有点无法理解。这个问题应该没那么复杂啊。

只能差评了,对不起阿里这大厂的名声和富贵。。。

最后还想试试腾讯,结果,人家不给我开账号,说还要审核。果然,最烂就是它了。。。

结论

结果基本很明显,百度>讯飞>百川>阿里。腾讯呢?它还是算了吧。。。

结果基本符合实力,也符合预期。百度是少有的一直在真心做AI的公司,只是广告丑闻让它形象很难起来。科大也算用心,只不过,细节上还是有不小的差距。

真的没想到一个问题居然就能评出各大模型的优劣,有意思。

后面有空准备试试LLAMA2模型,不过本地只能跑7B的,或者13B的量化。

期待。。。