lidang 立党 (全网劝人卖房、劝人学CS第一人)
@lidangzzz
刷B站,居然看到了一个post-training(专指test-time) scaling law的讨论。这人介绍了DeepMind的一篇paper,讲OpenAI的o1,可能是一次并行生成N个回答,然后有一个reward model(比GPT-4小很多,专门给答案提供reward,等于一个判卷老师),从里面挑10%的好回答。(原paper里比较了三种方法, 但都是那PaLM做的,可以不看: 看起来这批人的post-training scaling law想法,跟我几乎是完全不同。
兔崽爱露出
@tujiangbaby_
日理万姬💕
@SexytoBaby
屁小六(口令回复)
@666xiaoliu
隔壁大叔
@RLWJ_kuking
小宅酱
@tmEujITwYqHa1MS
喷奶小蜜桃🍑
@Pennaixmt
原创榜单
@BulmaList
播音系的小美miyoki(只回门槛)
@fhheese35
大叔de · 阿房宫
@JWCJ_kuxs
大鬼の世界🧊(原创投稿验证请私信)
@Daguidiyi
小小佛(原创验证私信)
@Xiaoxiaofoer
@tujiangbaby
捅主任
@91CaptainJACK
紫蛋
@zidan670
胡椒籽
@hujiaozi36
甜崽顾昕怡
@jinvguxinyi
Michelle彤彤乖
@tongtong0401
大佛的小屋
@DaFoer_
成人導航【中文字幕組】
@javzimu
布尔玛
@ToBulma