AI不得了之三:一个例子看大语言模型的评估
大模型的幻觉问题逐渐被人发现,原来有时候大模型会一本正经的胡说八道。
从根子上说,幻觉问题很难避免。毕竟,大模型本质上就是对知识的压缩算法,而且是带有“失真”的压缩算法。所以,大模型在胡说八道的时候很可能自已以为所说的就是真理。
今天偶然用一个例子试了试国内的大模型,发现结果挺有意思。
引子
今天新买的魔改2080Ti 22G到货了,赶紧跑了一下ChatGLM2 6B,结果发现胡说八道的很严重:

作为名声最好的国产开源模型,感觉不应该啊,调了一下参数,结果好点了:

前面几个将领感觉还像模像样的,可是,百度一下细看,结果悲剧了,有的人根本不存在!
比如这个:

还有这个:

当然,也有好几个对的:

但不管怎么样,邓奶奶的名字也在里面就有点扯了。。。
好奇心驱使下,用同样的问题试了一下国产的这些大模型包括:
- 百度,文心一言
- 阿里,通义千问
- 百川,百川大模型
- 科大讯飞,星火
测试结果
第一个,文心一言:

中规中矩,基本没毛病。
第二个,科大讯飞:

这两位因病去世,算不上牺牲吧。总体答案还可以,就是理解有点偏了。
第三个,百川:

这个,呃。。。百川这是要犯政治错误吗?
基本也可以证明,百川中文语料是不够的。
第四个,阿里,通义千问:

这个直接说抱歉了?有点无法理解。这个问题应该没那么复杂啊。
只能差评了,对不起阿里这大厂的名声和富贵。。。
最后还想试试腾讯,结果,人家不给我开账号,说还要审核。果然,最烂就是它了。。。
结论
结果基本很明显,百度>讯飞>百川>阿里。腾讯呢?它还是算了吧。。。
结果基本符合实力,也符合预期。百度是少有的一直在真心做AI的公司,只是广告丑闻让它形象很难起来。科大也算用心,只不过,细节上还是有不小的差距。
真的没想到一个问题居然就能评出各大模型的优劣,有意思。
后面有空准备试试LLAMA2模型,不过本地只能跑7B的,或者13B的量化。
期待。。。