
本来 AI 也在水字数。
大模子的念念维链越长,推理武艺就越强?谷歌 Say No ——
token 数目和推理质地,真没啥正关联,因为 token 和 token 还不相同,有些纯充数,深度念念考 token才真有用。
新磋商罢休字数论,甩出估量模子推理质地的全新尺度DTR,专门揪模子是在真念念考也曾水字数。

基于 DTR,还提议了Think@n 政策,让 GPT-OSS、DeepSeek-R1 等推理模子竣事准确率不降、算力老本平直砍半的成果。
长逻辑不等于好推理
永久以来,一个比较常见的不雅点是念念维链越长越牛。
这种念念路的逻辑也比较平直,推理法式多 = 念念考更充分 = 谜底更准。
于是不少研发者也为了追求长推理轨迹运转堆算力。
谷歌的磋商团队在 AIME2024/2025、HMMT 2025、GPQA-Diamond 四个数据集上,测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模子变体;
收尾发现,token 长度和准确率的平均关谈论数是 -0.54 ……负关联。

也即是说,在某些情况下,念念维链越长,推理越容易跑偏,以致还会堕入逻辑死轮回巧合过度推理。
那么问题来了:淌若长度靠不住,那该怎样判断模子是不是在真念念考?
谷歌此次的视角比较特真谛,不看名义输出,平直监听模子每一层的内心戏。
磋商发现,模子生成的 token 其实不错分红两类:
功能性词汇,比如"和""是""的"这类,模子在浅层网路就快速笃定了,是不需要深度念念考的迂缓词;
深度念念考词,比如"运算收尾是 10 ""选项为 A ",这类词在深层汇集聚还会被反复修正,斗鱼体育app官网展望散布捏续变化,体现模子是真在琢磨问题。
团队用 JSD 估量各层展望散布的各别,淌若一个 token 的展望直到深层麇集才踏实下来,那就被判定为深度念念考词。

在这个基础上,他们提议了Deep Thinking Ratio,即深度念念考词在齐备生成序列中的占比。
这个比例越高,阐明模子越聚焦中枢推理,莫得在无真谛实验上破费算力。
真 · 深度念念考降本增效
在四个推理测试集上,DTR 与推理准确率的关谈论数达到 0.82。
比较于 token 长度的 -0.54,DTR 更能反应推理质地。

谷歌还基于 DTR 趁势推出了 Think@n 政策,能在推理初期就识别低质地妄言,将经营资源聚合在委果有深度的样本上。
具体为为每个问题采样多个推理样本,仅通过 50 个 token 的短前缀快读估算 DTR 值,筛选出前 50% 的高质地样本,再进行多量投票得出谜底;
这么,低 DTR 的低质地样本在推理初期就被圮绝生成,平直砍掉无真谛的 token 破费。
在多款主流模子的测试中,Think@n 推理准确率与传统政策捏平以致略高。
比如 GPT-OSS-120B-medium 在 AIME 2025 数据集上准确率达 94.7%,高于传统政策的 92.7%;
还将算力老本平直削减近一半,推理 token 破费从 355.6k 降至 181.9k,作念到了性能不降、老本减半。

这项磋商的第一作家 Wei-Lin Chen 是弗吉尼亚大学经营机博士,专注于 LLM 推理估量及评估者有用性等磋商方针,曾在谷歌担任学生磋商员。

共湮灭作 Liqian Peng 为中科大学友,刻下谷歌担任磋商工程师。

指引作家孟瑜是弗吉尼亚大学经营机助理教授,磋商方针包括检修范式、数据与推理效力及表征基础等方面,此前还和 NLP 界限的顶尖学者陈丹琦有过诱骗。

看来大模子推理也不兴水字数了,真 · 深度念念考才能降本增效。
论文地址:https://arxiv.org/abs/2602.13517
一键三连「点赞」「转发」「留神心」
接待在驳斥区留住你的主张!
— 完 —
� � 点亮星标 � �
科技前沿施展逐日见