DeepSeek-R1联网搜索能力首测:腾讯元宝第一

珠江路在线   2025年3月12日  【 转载 】港剧网 

  本文标签:DeepSeek-R1,腾讯元宝,联网搜索能力,SuperCLUE,第三方平台,基础检索能力,分析推

3月11日 信息,国产大模型DeepSeek-R1爆火后,许多第三方平台陆续接入了该模型, 比方腾讯、阶跃星辰、蚂蚁 集团、百度、字节跳动等等 。

今天,中文大模型评测基准SuperCLUE公布DeepSeek-R1联网查找 威力首测,公布了10家第三方平台评测 后果 。

从 后果来看,腾讯元宝是本次评测中唯逐个个超过80分的第三方平台,以80.61分领跑联网查找评测榜单,腾讯元宝在总分、 根底检索 威力和 综合推理 威力三个 要害指标上均位列第一 。

阶跃AI以74.49分的总分位居第二, 领取宝百宝箱以73.47分位居第三,而 其余平台在本次评测中则处于不同的梯队,性能存在 定然的差别 。

各个第三方平台在 根底检索 威力上 均匀得分为95.45,而在 综合推理 威力上的 均匀得分仅有35.35,相差近60分 。

同一平台在 根底检索 威力和 综合推理 威力两大维度上的 体现也和样差别显而易见,全部平台的 综合推理 威力得分都显而易见低于 根底检索 威力 。

SuperCLUE 示意,这反映出在更高级的认知 使命,例如 了解、 综合、推理和解决复杂问题方面,仍有很大的 遍及空间 。

回复率上,飞书 常识问答、阶跃AI、腾讯元宝和 领取宝百宝箱在联网查找回复率方面 体现优异, 完全回复率均为 100%,截断率和无回复率均为零,成为第一梯队 。

秘塔AI查找、纳米AI查找和天工AI紧随其后,组成第二梯队, 其余平台也均有超过85%的 完全回复率,都 体现出了较强的 巩固性 。

耗时方面,总 均匀耗时从 起码的字节火山引擎(17.12秒/题)到最多的MiniMax(73.51秒/题),差距十分卓著 。

整体来看,耗 时候布 规模较广,不同平台中间的查找效率差别较大 。

另外,全部平台在 综合推理 威力上 均匀耗时都显而易见高于 根底检索 威力 。

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。