斗鱼体育app官网不是通盘token齐对等！谷歌提议真·深度念念考：念念维链长深度推理

发布日期：2026-02-26 03:48 点击次数：180

本来 AI 也在水字数。

{jz:field.toptypename/}

大模子的念念维链越长，推理武艺就越强？谷歌 Say No ——

token 数目和推理质地，真没啥正关联，因为 token 和 token 还不相同，有些纯充数，深度念念考 token才真有用。

新磋商罢休字数论，甩出估量模子推理质地的全新尺度DTR，专门揪模子是在真念念考也曾水字数。

基于 DTR，还提议了Think@n 政策，让 GPT-OSS、DeepSeek-R1 等推理模子竣事准确率不降、算力老本平直砍半的成果。

长逻辑不等于好推理

永久以来，一个比较常见的不雅点是念念维链越长越牛。

这种念念路的逻辑也比较平直，推理法式多 = 念念考更充分 = 谜底更准。

于是不少研发者也为了追求长推理轨迹运转堆算力。

谷歌的磋商团队在 AIME2024/2025、HMMT 2025、GPQA-Diamond 四个数据集上，测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模子变体；

收尾发现，token 长度和准确率的平均关谈论数是 -0.54 ……负关联。

也即是说，在某些情况下，念念维链越长，推理越容易跑偏，以致还会堕入逻辑死轮回巧合过度推理。

那么问题来了：淌若长度靠不住，那该怎样判断模子是不是在真念念考？

谷歌此次的视角比较特真谛，不看名义输出，平直监听模子每一层的内心戏。

磋商发现，模子生成的 token 其实不错分红两类：

功能性词汇，比如"和""是""的"这类，模子在浅层网路就快速笃定了，是不需要深度念念考的迂缓词；

深度念念考词，比如"运算收尾是 10 ""选项为 A "，这类词在深层汇集聚还会被反复修正，斗鱼体育app官网展望散布捏续变化，体现模子是真在琢磨问题。

团队用 JSD 估量各层展望散布的各别，淌若一个 token 的展望直到深层麇集才踏实下来，那就被判定为深度念念考词。

在这个基础上，他们提议了Deep Thinking Ratio，即深度念念考词在齐备生成序列中的占比。

这个比例越高，阐明模子越聚焦中枢推理，莫得在无真谛实验上破费算力。

真 · 深度念念考降本增效

在四个推理测试集上，DTR 与推理准确率的关谈论数达到 0.82。

比较于 token 长度的 -0.54，DTR 更能反应推理质地。

谷歌还基于 DTR 趁势推出了 Think@n 政策，能在推理初期就识别低质地妄言，将经营资源聚合在委果有深度的样本上。

具体为为每个问题采样多个推理样本，仅通过 50 个 token 的短前缀快读估算 DTR 值，筛选出前 50% 的高质地样本，再进行多量投票得出谜底；

这么，低 DTR 的低质地样本在推理初期就被圮绝生成，平直砍掉无真谛的 token 破费。

在多款主流模子的测试中，Think@n 推理准确率与传统政策捏平以致略高。

比如 GPT-OSS-120B-medium 在 AIME 2025 数据集上准确率达 94.7%，高于传统政策的 92.7%；

还将算力老本平直削减近一半，推理 token 破费从 355.6k 降至 181.9k，作念到了性能不降、老本减半。

这项磋商的第一作家 Wei-Lin Chen 是弗吉尼亚大学经营机博士，专注于 LLM 推理估量及评估者有用性等磋商方针，曾在谷歌担任学生磋商员。

共湮灭作 Liqian Peng 为中科大学友，刻下谷歌担任磋商工程师。

指引作家孟瑜是弗吉尼亚大学经营机助理教授，磋商方针包括检修范式、数据与推理效力及表征基础等方面，此前还和 NLP 界限的顶尖学者陈丹琦有过诱骗。

看来大模子推理也不兴水字数了，真 · 深度念念考才能降本增效。

论文地址：https://arxiv.org/abs/2602.13517

一键三连「点赞」「转发」「留神心」

接待在驳斥区留住你的主张！

— 完 —

� � 点亮星标 � �

科技前沿施展逐日见