爱吱声返回首页

xiejin77的个人空间 http://aswetalk.net/bbs/?1456 [收藏] [复制] [分享] [RSS]

日志

openAI发布会这两天的观感

热度 22已有 958 次阅读2024-12-7 09:57

o1模型卡里的东西可真多，值得仔细看看。可以这么认为，o1的模型卡中尤其是其中的第四章评估部分是为使用链式推理的大模型打了个样。以此为基础，可以充分评估当前的模型套用链式思维能力和o1的差距在哪里。国内的大模型厂商们赶紧卷起来吧[呲牙]，等着用免费的呢。<div></div><div>昨晚出来的rft，强化微调的概念其实和cot一样并不新鲜。但既然closeai敢发布，那就说明他们至少掌握了一些领先的东西。先说我的观点，很多公号说这个思路是来源于字节的那篇reft的论文，但我不这么看。强化学习用于大模型的微调和对齐，是一直就有的思路，区别也只是怎么用，rft之后如何作用于模型而已。虽然也很有难度，但肯定不只是字节的论文就可以涵盖的，我一个月以前也解读了一篇基于强化学习微调大模型的论文，伯克利和deepmind的，2410.06213v1。讲的思路也很像。所以争起源，说“我们原来阔过”没有用。关键还是要关注一下rft到底怎样，能不能克服传统的微调带来的问题。</div><div></div><div>统而言之，这两天看下来closeai的发布，确实有惊喜，不管是能力还是价格[捂脸]。但你要说是天顶星科技，那也未必，这些进步都还是学术界一步一个脚印的基础上做出来的产业化成果。能否彻底成功姑且不论，但国内的大模型追赶者应该是更有信心了才对[拳头]。</div>

刚表态过的朋友 (22 人)

收藏分享邀请举报

全部作者的其他最新日志

发表评论评论 (2 个评论)

回复蓦然回首 2024-12-8 01:01: 恭喜谢老师四年之后又用手机修改日志了

回复 xiejin77 2024-12-9 11:10: 蓦然回首: 恭喜谢老师四年之后又用手机修改日志了
换了个梯子，手机终于能用了

xiejin77

手机版|小黑屋|Archiver|网站错误报告|爱吱声

GMT+8, 2026-8-3 21:48 , Processed in 0.052381 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部