技术资讯
人工智能
大模型
大模型对战
大模型对战评测:2024年最佳AI对决榜单
摘要
自从ChatGPT 3 5问世以来,这一年半的时间里,大语言模型像雨后春笋一样冒了出来。特别是
自从ChatGPT 3.5问世以来,这一年半的时间里,大语言模型像雨后春笋一样冒了出来。特别是去年那阵子,各家大模型扎堆发布,场面确实热闹。但说到现在市面上那些让人眼花缭乱的大模型到底哪个好用?估计每个人心里都有一杆秤。不妨直说,对于经常使用AI产品的人来说,手头肯定不止一个工具。同一个问题,这家答得不好,就换另一家,主打一个“有备无患”。毕竟再强的模型也不可能面面俱到嘛。
不过,这股新鲜劲儿过去之后,大家的热情也慢慢回落了。不少用户最终只留用了一两个最顺手的,对其他新品已经提不起太多兴趣。原因很简单:一是现有的工具基本能满足大部分需求;二是实在不想再花精力去从头测试一个新模型了。而就在这个时候,一个新的玩法出现了。
。
再来一次,试一下今年北京高考作文题。
嗯……很有意思。果然,像游戏一样,有了竞技性,才觉得更好玩。往大了说,你每一次投票,都在无形中影响着大模型的开发者。说不定哪天,你发现手头的AI工具又带来了新的惊喜,而这里边可能就有你投出的一票。毕竟,只有真实用户的反馈,才能鞭策开发者们不断优化创新。
闲着无聊了,不妨来玩一玩。
扣子LLM竞技场
扣子最近推出了一个非常有意思的功能——模型对战。值得一提的是,目前只有国内版上线了,国际版还没有开放。 实际上,国外早就有一个类似的平台叫LMSYS ChatBot Arena(https://arena.lmsys.org/)。不过里面的大模型基本以海外为主,国内的只有少数几个,比如阿里的Qwen、李开复的Yi-Chat。 不知道大家还记得之前网上泄露的“gpt-2”事件吗?后来被证实就是OpenAI后来发布的ChatGPT-4o。而这个泄露源正是LMSYS ChatBot Arena。由此可见,大模型竞技场对于评价模型性能来说,分量有多重。 现在,国内也终于有了自己的竞技场,网址是:https://www.coze.cn/model/arena 既然是国内版本,目前只支持国内的一些模型,具体包括以下这些: 目前数量确实不算多,但可以预期,未来一定会逐渐丰富起来。玩法介绍
竞争,确实是人类的本性之一。有时候,只有同行的衬托才能更清楚地体现出自己的优势。下面简单说说竞技场的三种模式。 前两种模式,都是和特定的Bot对话,Bot会随机选取两个大模型进行调用并生成答案。比如选一个名为“影视分析”的Bot,然后就可以随机提问,并进行投票。 不过,这两种模式除了调用的模型本身,还可能受到Bot自设的工作流、知识库等因素影响,所以并不能100%体现一个模型的真实水平。 而第三种模式——纯模型对战,就更纯粹、更直接了,没有任何其他因素的干扰。 实际操作中,提了一个问题,没想到平时经常用的Kimi竟然回答完全错误
。
再来一次,试一下今年北京高考作文题。
嗯……很有意思。果然,像游戏一样,有了竞技性,才觉得更好玩。往大了说,你每一次投票,都在无形中影响着大模型的开发者。说不定哪天,你发现手头的AI工具又带来了新的惊喜,而这里边可能就有你投出的一票。毕竟,只有真实用户的反馈,才能鞭策开发者们不断优化创新。
闲着无聊了,不妨来玩一玩。 来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。