通八洲科技

Chatbot Arena:UC Berkeley开源AI评测平台,采用Bradley-Terry模型生成实时排行榜 抖音付费营销推广途径

日期:2026-01-18 17:16 / 作者:网络

1个背景简介

Arena是由加州大学伯克利分校(UC)的实验室和团队共同开发的开源AI评估平台。该平台通过众包对各种AI模型进行了全面的评估,并使用–terry模型生成实时排名,为行业提供客观和公平的模型绩效参考。

众包方法:“”是一个专业术语,指的是:“人群”(Mass) +“”(来源),即众包。它是从大量互联网用户那里收集意见/数据,也就是说,使用()的智慧来完成特定的任务。

- 特殊模型:一种统计工具,专门处理诸如“谁更好”之类的问题。例如,当用户同时在竞技场平台上看到GPT-4和两个AI的答案时,他们将选择一个他们认为更好的答案。通过收集大量此类“两项选择”结果,-Terry模型可以计算每个AI模型的强度参数。如果用户通常选择GPT-4作为更好的答案,则其强度参数将得到相应的改进。

2评论概述

截至2025年12月29日的最新数据显示:

·参与模型的总数:187(下图仅提取头部多个模型)

·累积用户投票:2,488,392票

·评估维度:包括语言能力,视觉能力,编程助理和其他方向

·评分机制:使用类似于国际象棋的ELO评分系统,模型之间的成对比较是通过用户投票执行的。

从该表分析中,我们可以看到当前的全球AI大型模型竞争模式显示了“美国和中国的两个英雄”。

美国公司:元,XAI,

中国公司:01ai,Zhipu ai

美国公司的领导绝非偶然。并分别以1373分和1365分领先列表,这反映了其在诸如计算能力,数据和人才之类的核心元素中的长期积累。

该排名还反映了当前AI大型模型领域的几个重要趋势:美国公司仍然具有技术优势,但全球竞争正在加剧;开源和封闭源模型共存;模型性能差距正在缩小,竞争变得越来越激烈。同时,中国公司在人工智能领域的兴起变得越来越明显。许多中国公司的模型正在接近第一个梯队,并显示出快速追赶的趋势。

通常,此列表不仅是对当前AI技术水平的客观反映,而且是对技术发展未来方向的重要启蒙。在这场技术斗争中,真正的赢家是整个AI行业生态系统,最终的受益人绝对是全球用户。