lidang 立党（全网劝人卖房、劝人学CS第一人）：“刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。（原paper里比较了三种方法，但都是那PaLM做的，可以不看：看起来这批人的post-training scaling law想法，跟我几乎是完全不同。” - T66YVIDEO

Search any X

X 热搜关键词

女喘 komicantcommunicate ClassyAndKinky finalfantasycosplay playboybunnies ClickToSurrender CumClinic asiandoll Tpowers 49

lidangzzz

lidang 立党（全网劝人卖房、劝人学CS第一人）

@lidangzzz

刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。（原paper里比较了三种方法，但都是那PaLM做的，可以不看：看起来这批人的post-training scaling law想法，跟我几乎是完全不同。

刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。

这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，

然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。

（原paper里比较了三种方法，但都是那PaLM做的，可以不看： https://t.co/xGbfNQMxA7）

看起来这批人的post-training scaling law想法，跟我几乎是完全不同。

PM 06:55 · 2024-10-22

兔崽爱露出

@tujiangbaby_

日理万姬💕

@SexytoBaby

爱嚼冰淇淋🍦

@ijubngqln13855

播音系的小美miyoki（只回门槛）

@fhheese35

小宅酱

@tmEujITwYqHa1MS

屁小六（口令回复）

@666xiaoliu

ToBuerma

@ToBuerma

♡pupuwaifu♡

@waifupupu

紫蛋

@zidan670

喷奶小蜜桃🍑

@Pennaixmt

隔壁大叔

@RLWJ_kuking

小小佛（原创验证私信）

@Xiaoxiaofoer

兔崽爱露出

@tujiangbaby

幼水若若

@fanchaluolia

布尔玛

@ToBulma

Big叔の阿房宫

@SexytoGbds

大叔de · 阿房宫

@JWCJ_kuxs

优米

@yoouumi11

川泽森

@KawasawaSen

胡椒籽

@hujiaozi36

T66YVIDEO

© 2026 T66Y VIDEO