Create an account for a cleaner watch
After signing up, videos will play without pop-up ads, and you can add favorites to your collections.
lidang 立党 (全网劝人卖房、劝人学CS第一人)
@lidangzzz
刷B站,居然看到了一个post-training(专指test-time) scaling law的讨论。 这人介绍了DeepMind的一篇paper,讲OpenAI的o1,可能是一次并行生成N个回答, 然后有一个reward model(比GPT-4小很多,专门给答案提供reward,等于一个判卷老师),从里面挑10%的好回答。 (原paper里比较了三种方法, 但都是那PaLM做的,可以不看: 看起来这批人的post-training scaling law想法,跟我几乎是完全不同。
兔崽爱露出
@tujiangbaby_
日理万姬💕
@SexytoBaby
爱嚼冰淇淋🍦
@ijubngqln13855
播音系的小美miyoki(只回门槛)
@fhheese35
小宅酱
@tmEujITwYqHa1MS
小屁大王(仅一号!)
@666xiaoliu
ToBuerma
@ToBuerma
♡pupuwaifu♡
@waifupupu
紫蛋
@zidan670
喷奶小蜜桃🍑
@Pennaixmt
隔壁大叔
@RLWJ_kuking
小小佛(原创验证私信)
@Xiaoxiaofoer
@tujiangbaby
幼水若若
@fanchaluolia
布尔玛
@ToBulma
Big叔の阿房宫
@SexytoGbds
大叔de · 阿房宫
@JWCJ_kuxs
优米
@yoouumi11
川泽森
@KawasawaSen
胡椒籽
@hujiaozi36
규칙은 변경될 수 있습니다. 실제 정산·자격(부정·비정상 트래픽 등)은 플랫폼 기준입니다. 표시는 참고용입니다.
전용 링크 받기
로그인 또는 가입 후 현재 페이지 등에 초대 코드가 포함된 공유 링크를 받을 수 있습니다.