

新智元报说念
裁剪:好困
【新智元导读】马斯克又搞大事!𝕏把酬酢平台统共不会公开的两样东西「告白」和「审查」,连吞并个能径直跑的推选模子,连气儿全推上了GitHub。6亿东说念主每天刷到什么,当今是Grok说了算。
就在刚刚,马斯克把𝕏最新版的算法给开源了!
老马的官宣唯唯一句话,但顷刻间就引来了超2700万网友的围不雅。

之是以这样炸,是因为酬酢平台有两样东西是毫不成给外东说念主看的:
第一,告白注入系统,也即是「印钞机」。
第二,实际审查管线,也即是「死活簿」。
而𝕏把这两样的源码,连吞并个3GB大小的推选模子,连气儿全放到了GitHub上!

仓库地址:https://github.com/xai-org/x-algorithm


不是,𝕏连告白代码齐给了?
1月19日,𝕏第一次把推选算法开源。
其时公开的是Phoenix名次模子和Thunder信息流引擎,也即是是「你绽放For You看到什么」的决议逻辑。
但告白系统的代码,一个字齐莫得。
这回,全给了。

新增的home-mixer/ads/目次里,有四个关联的Rust文献。
partition_organic_blender.rs,崇敬把告白和当然实际混在全部
safe_gap_blender.rs,崇敬放胆两条告白之间至少隔几条当然帖子
ads_brand_safety_hydrator.rs + ads_brand_safety_vf_hydrator.rs,崇敬管品牌安全,确保告白不会出当今暴力或色情实际傍边
防卫这里的关节词,blender,混杂器。
也即是说,告白不是硬插的,是跟你发的帖子、你关怀的东说念主发的帖子全部列队、全部打分、然后按规则混杂的。
你刷到的每一条告白,齐是「赢」了傍边那几条当然实际才出当今阿谁位置的。


有个审帖器具,中国开云体育一站式服务入口名字叫「deluxe」
另一个从未公开过的组件是grox/目次。
它专管帖子发出之后、参加推选之前的那说念「审查活水线」。
六个分类器各管一摊:
spam.py,崇敬垃圾实际检测
post_safety_screen_deluxe.py,崇敬安全审查(「豪华版」这个定名,很𝕏)
safety_ptos.py,崇敬平台做事条目政策检查
banger_initial_screen.py,崇敬爆款初筛,判断一条帖子是否「够炸」
reply_ranking.py,崇敬陈述排序
classifier.py,崇敬通用实际分类
这里最成心念念的是banger_initial_screen。banger,爆款。
也即是说,𝕏的算法里挑升有一个分类器在判断「这条帖子炸不炸」,炸的优先往前排。

整套Grox管线用Python写成,跟Rust写的推选系统主体酿成了分层。
其中,斗鱼体育(DouYuSports)Rust跑毫秒级排序,Python管「这条实际该不该存在」。
配套的还有Kafka数据加载器、ASR语音识别处分、帖子摘抄生成器,以及一个调理引擎把这些任务编排成不同的「plan」跑起来。

3GB模子斗鱼体育(DouYuSports)给你,拿去径直跑
本领圈最繁盛的可能是第三个变化。
过去开源推选算法,你看获得逻辑但跑不起来。莫得模子权重,代码即是一堆空壳。
开云app官方最新下载这回𝕏径直塞了一个预教练好的mini Phoenix模子:
Mini Phoenix Model├── 镶嵌维度: 256├── 防卫力头: 4├── Transformer层数: 2├── 模子体积: ~3 GB(Git LFS分发)└── 推理进口: python run_pipeline.py(检索→排序,一瞥跑通)
一瞥号召,从检索到排序的齐全推理经过就能跑通,pipeline结构跟坐褥环境一模不异。

固然,mini模子的参数限制远小于线上阿谁。
但这也曾是酬酢平台历史上,第一次有东说念主把「能跑的模子」和「坐褥级代码」打包在全部给出来。


一条帖子的死活,15个概率说了算
告白、审查、模子是此次最炸的三个新组件。但它们各自填进了推选pipeline的具体位置。
1月那一版,pipeline六步里大部分唯独骨架代码。
此次补全之后,每一步齐有了齐全的Rust或Python完毕。
从2个候选源到7个以上,从0个用户画像hydrator到17个。
径直把整条pipeline从「能看」变成了「能跑」。

整条pipeline的灵魂在第5步打分。
Phoenix的Grok Transformer给每条帖子打分时,会同期瞻望15种用户当作的概率。
最终得分的评判如下:
Final Score = Σ (weight_i × P(action_i))
正向当作 → 正权重(加分)负向当作 → 负权重(重扣)
15说念侦察,11说念加分题,4说念送死题。
你的帖子每一条齐要走这样一遍。
We have eliminated every single hand-engineered feature and most heuristics from the system。
统共手工规则全砍了,100%靠Transformer端到端学出来。

打分机制里还有一个策画叫Candidate Isolation,候选阻遏。
Transformer推理的时刻,候选帖子之间相互「看不见」。
每条帖子只可看到用户的历史当作,看不到吞并批里有什么其他帖子。
为什么要这样作念?
因为淌若候选帖子相互影响,吞并条帖子跟50条候选全部送进去和跟500条全部送进去,得分会不不异。
而𝕏通过防卫力掩码把这个依赖透彻堵截,每条帖子的分数零丁、巩固、可缓存。
换句话说,这15种瞻望,不是在猜「这个东说念主心爱什么」,是在判断你会作念什么、不会作念什么、以及作念完之后会不会后悔。

你的For You,当今是一册绽放的书
如今,各人主流酬酢平台里,𝕏是唯逐个个把推选算法、告白系统和实际审查管线齐摊在GitHub上的。
你的For You如何排序,告白如何混进来,哪些实际会被干掉,当今齐有一份Rust和Python写成的谜底。
况且这套推选系统也曾100%切换到Grok Transformer运行,手工规则全砍。
也即是说,xAI的模子才能也曾从聊天机器东说念主,渗入到了6亿东说念主每天的信息徒然决议里。
推选系统,可能是当下最有实权的AI专揽场景。谁放胆了排序,谁就放胆了防卫力。
有敬爱的不错git clone下来跑一把。
3GB模子,一瞥号召,你就能看到那15个概率是如何决定你每天刷到什么的。
