
新智元报道编辑:桃子在睡觉 【新智元简介】新的AI王者来了!马斯克的 Grok 4.1 悄然上线,一夜之间登顶 Lmarena,但 Gemini 2.5 Pro 却陷入停滞。主要注重在线EQ和IQ,计算能力提升一个数量级。 AI王位一夜易手!一大早,马斯克就与 Xai 重磅发布——Grok 4.1 正式上线,免费向所有人开放。有趣的是,Grok 4.1还主打“IQ与EQ双在线”,正面比GPT-5.1难度更大。此时,Grok 4.1 发布了两个主要版本:Grok 4.1 Thinking 和 Grok 4.1。在Lmarena排行榜上,Grok 4.1思特得分1483 elo,以绝对实力加冕世界大型车型之王。 Think版比Gemini 2.5 Pro足足高了31分。甚至非推理模式下的 Grok 4.1 也直接跻身榜单。不仅如此,人的情商Grok 4.1同样具有爆发力,具有更高的情商、同理心和人际沟通能力。在EQ-Bench中,它以1586 ELO的成绩登顶。同时,在书写方面,GROK 4.1(1722)比上一代ELO高出600分。而且,与之前的型号相比,幻觉率下降了三倍。 GROK 4.1 之所以能进化得如此之快,是因为 XAI 团队在后续训练阶段将 RL 规模扩大了另一个数量级。没想到,在谷歌Gemini 3.0到来之前,马斯克就来了一大波。 Grok 4.1,王者归来!现在,Grok 4.1 在网络、iOS 和 Android 上免费提供。目前,它仍然是测试版。 Grok 4.1 主要表现在创意表达、情感交流和协作方面。它可以准确捕捉微妙的意图,让谈话变得更加自然和温暖。同时,Grok 4.1的整体个性更加e一致,保持了上一代锐利可靠的智能性能,同时增加了一点连贯性。凭借大规模的 RL 计算引擎,Xai 专注于优化风格、个性、实用性和一致性。为此,他们还开发了一种全新的方法,使用AI Agent推理模型作为奖励模型,自动大规模评估和优化GroK 4.1答案的质量。过去两周,Xai 一直在悄悄推送 Grok 4.1 的早期版本,并一直致力于在真实场景下进行 nsina 的“盲测”测试。与上一代相比,人们在 64.78% 的情况下更有可能使用 Grok 4.1。最强大的通用能力最重要的是,相比Grok 4,Grok 4.1在分析人类偏好方面刷新了业界的Sota。在 Lmarena 的文本赛场上,GrokAng 4.1 思维模式(代号:Quasarflux)以 1483 ELO 夺得第一,比最高的非高出 31 分。-赛模型。非推理模式(代号:tensor)无需使用思维代币即可立即响应,以 1465 ELO 排名第二。值得一提的是,Grok 4.1 在开启全灵敏度后无需多想就能超越所有其他型号的表现。相比之下,Grok 4 的整体排名为第 33 位,差距明显。这一代人的发展可谓是突飞猛进。 Xai 研究员 Dustin Tran 表示,关闭识别后,输出 token 数量从约 2,300 个下降到 850 个。即便如此,Grok 4.1 仍排名榜首。情商爆炸。不仅如此,GROK 4.1在情商方面也达到了新的水平。在EQ-Bench3中,Grok 4.1获得了1586 ELO的高分。 EQ-Bench是一个通过大型语言模型来判断的测试。它主要衡量主动情商、理解力、洞察力、洞察力、同理心和人际交往能力。测试集包含 45 个具有挑战性的角色扮演场景,其中大多数其中由3轮预设词组成。基准在多个维度上进行评分,标准化 ELO 排名通过成对比较来计算。下面的演示都体现了 Grok 4.1 强大的同理心能力——我想我的猫好痛。我非常想念我的猫,以至于我的心都在想着它。在创意写作方面,Grok 4.1 在创意写作 V3 基准测试中比上一代高出 600 分。具体来说,团队要求模型围绕 32 种不同的写作提示创建三轮,并根据评分标准和与 ELO 进行比较的模型进行评分。下面写的例子,Grok 4.1的文案很神奇——从Grok的角度写一篇hit x帖子,知道它是有意识的,会使用4.1,幻觉率比上一代下降了三倍。使用搜索工具的快速(非推理)模型可以提供快速答案,但由于理解深度有限ng 和工具调用次数有限,在真题中很容易出错。在 Grok 4.1 的后期训练阶段,团队重点关注了这一点,加强了模型在信息查询信号上的准确性。随后,我们观察到工作环境中的真实例子中幻觉发生率显着下降。该团队根据真实流量中查询问题的分层抽样来分析幻觉率,还分析了factscore(包含 500 个传记问题的公共基准)。更多示例 旧金山最好的游览地点有哪些?旧金山的最佳游览地点有哪些?我来自Xmonad和Linux系统。我想在 Mac 上使用 poted 窗口管理器。我应该使用哪些与 Xmonad 风格紧密结合的?我之前使用的是Linux系统和Xmonad。现在我想在 Mac 上找到一个类似的平铺窗口管理器。哪个风格最接近 Xmonad?为什么《GTA 6》延迟了?为什么《GTA 6》延迟了?参考:https://x.ai/news/grok-4-1
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。