最近,上海春天大学和上海Joton大学的前卫研究工作吸引了人工智能领域的普遍关注。本文档提供了详细信息
最近,上海春天大学和上海Joton大学的前卫研究工作吸引了人工智能领域的普遍关注。本文深入探讨了在强化学习培训(RL)中的各种基本语言模型(例如Lamas和Qwen)表现的原因,提出了创新的中型培训策略,并成功地转换了推理模型中的火焰模型,以促进扩展RL扩展的QWEN绩效模型,并降低了QWEN学习模型。下一代 - 代理能力AI系统。报纸发布后,他对社交网络引起了人们的普遍关注。艾尔(Al)去了乌马斯·阿默斯特(Umass Amherst)的目标研究科学家兼助理教授赵(Zhao):“我是第一个赞美我在训练中刚刚想到的许多神秘的人,以弥补雅拉玛和Qwen之间的RL差距。”Carnegie Mellon大学副教授Graham Neubig,MIT CSAIL研究科学家/Databricks Research和AI2数据负责人Crazy Soldaini共同证实了这种系统分析的关键价值。他指出,他的独立实验表明,每个模型都显着提高了RLVR或RL的性能,并进一步支持该方法的通用性,但前提是使用适当的数据前提。 UW,哥伦比亚,NUS,CMU,Princeton,thu,hkust等:data:https://huggingface.co/ocel研究团队Tothinker成功地将火焰模型成功地转换为高度RL基本推理的基本模型,通过与QWEN相比的QWEN中的QWEN在数学上与QWEN可比性。在研究背景语言模型中引入了大规模增强学习(RL)已显着提高了复杂的推理能力,尤其是在艰巨的任务中,例如解决数学竞争问题。但是,最近研究显示了一系列有趣的现象。 (i)仅QWEN系列的基本模型几乎显示“神奇” RL。 (ii)AHA的重要时刻似乎主要出现在数学场景中。 (iii)几个评级环境通常意味着影响RL有效性的确定的偏见。 (iv)RL似乎是“平静与和平的”下游,但它取决于上游前的质量 ^[1]。同时,团队和其他研究人员发现,尽管QWEN在RL扩展方面具有很高的鲁棒性,但该呼叫经常提供回复和退出重复,这使得很难获得相同水平的性能增益。这一系列比较提出了科学的中心问题。什么基本特征决定了模型对RL量表的适应性?平均培训期是否可以用作可控的干预措施来缩小不同RL基础之间的性能差距?调查这些问题S,该团队传输了一份由研究过程记录的详细技术报告,开源数据解决方案和一系列基于完全改进的火焰性能Octothinker的新模型。中心问题:为什么RL培训在火焰中经常失败?当模型的ASET通过强化学习(PPO,GRPO等)在数学推理任务方面取得了重大改进时,相同大小的火焰模型通常落入重复的生产困境和重复的响应中。如下图所示,直接训练了呼叫系列模型进行增强学习时,您将始终找到一组问题,例如奖励的盗版和有限的绩效改进。详细的探索:通过对中等探索培训的可控培训来控制的关键要素。研究人员在Llama-3.2-3b(每个实验20B)中进行了许多可控的实验,并进行了强化学习训练,以观察训练动力。发现高质量数学语料库重要性的关键:我们发现,与现有替代方案(例如finemath-4plus)相比,高质量的数学语料库(Asmegamasu-web-Pro)可以显着改善基本模型和RL性能。例如,当使用Megamath-Web-Pro时,该模型对于Dasts rl Downst Food的使用要比使用Finemath-4plus要好得多。 QA格式数据增益和指令数据:基于高质量的Premat训练语料库添加质量控制样式数据(尤其是长链推断示例)可改善RL效应,但引入少量指导数据进一步阻止了质量控制数据的可能性。这项研究发现,指导数据有助于模型更好地了解任务要求并在RL阶段提高性能。长链推断的双重剑效应:长链推断可以改善推理的深度,但可以机智的疾病h长期模型响应和不稳定的RL培训,突出了数据格式的重要性。例如,实验发现,在处理长链推理数据时,模型容易产生过度产生或训练过程中的性能变化。为此,研究团队通过以下方案解决了训练的不稳定性问题:抑制设计设计以立即改进模板,复制的输出(与基本员工的错误率↓37%相比),随着训练进展的进展,它可以随着培训的进展而增加培训量。它显然反映在基本模型的评估中。这表明中间训练阶段的扩展对于改善模型的最终RL性能非常重要。高质量的自我构建数学语料库。在准备语料库时,团队还发现了另一个问题:缺乏高质量的开源语料库。在TR之前服用语料库举例来说,目前,最高质量数学-Web-Pro的数学兵团的大型群体的代币含量少于20B,但它的确将Finemath语料库与质量略低,在RL培训期间将变得不稳定。为了支持大规模消融研究和中期培训,研究团队创建了Megamath-Web-Pro-Max。语料库通过有效的分类器来记住Megamath-Web文档,并使用大规模的语言模型进一步完善结构。具体而言,研究人员对数百万个文档进行了统一和随机的样本,对标有Llama-3.1-70B-Instrust标记的Corpus Web Megamas文档的年份进行了分层。每个文档根据数学学徒的实用性从0到5的资格,标点符号过程使用特定的标点符号提示(请参阅文档附录)。研究人员使用启发式方法从模型评论中提取分数。分数低于3的文件是MarkeD作为负面例子,而得分大于3的文档被认为是积极的例子。研究人员观察到,现有的分类器(例如Inmath分类器)对数据收集过程中的选择文本提取器非常敏感。因此,研究小组培训了自己的分类器,并选择了最有效的FastText分类器。根据Megamath的发现,研究人员发现,预处理程序对于记住表现很重要。研究设备的预处理过程包括将文本转换为小写,滤清器shovellong布拉剂,消除线路断裂和非alphanumericer字符。如下图所示,研究人员在比较了Megamath-Web提出的年度数据集后评估了不同恢复阈值下远程语料库的质量。恢复阈值决定了质量和数据量之间的补偿。较高的阈值(这样AS 0.9)产生更好的数据质量,但保留了更少的令牌。最终,研究人员选择0.4作为恢复阈值。图:研究小组回顾了数据比较,并根据典型的跟踪跟踪(不同的快速文本阈值)来记住每年巨型网络数据的质量。鉴于许多文档的问题,例如高噪音和结构差,研究人员使用Llama-3.1-70B - 教学来改进文本,并使用了Megamath-Web-Pro的DFAST ISO。最终的数据集构建了Megamath-Pro-Max的大约5.5倍,是代币Megamath-Web-Pro的数量。培训之前的经验评估表明,Megamath-Web-Pro-Max可以大规模成为中期培训语料库,同时保持数据质量。此外,研究人员试图通过引入典型数学问题解决数据集的长链思维数据来扩展积极模型种子,以改善分类IER记住密集的推理内容的能力。但是,此方法仅包含约20B令牌。这没有采用,因为研究人员认为它的大小不足。 Uthartharthersytroughtroughtroughtrough解决方案:在基于针对Findingsriores的发现的“稳定分解”训练计划中,研究人员提出了两个阶段的平均培训策略:阶段1:建立可靠的推断基础(Token 200b)(Token 200b)使用恒定的学习率来训练模型的型号lame plame lame plame plame 200b token token模型。补充少量合成数据的DCLM基线产生了坚实的推理基础。此阶段的目的是该模型逐渐提高了大规模数据的推理能力,并为后RL训练建立了坚实的基础和输出。第2阶段:分支中的专门培训(令牌20b)学习率(第一个LR的10%的分解),几种数据混合物(短链推断,长链I)nentive及其混合物),并训练三个分支的分支以塑造各种模型的行为。此阶段的目的是将数据设置传递给多样性和学徒Rate,这允许模型的推理和适应性更大。三个主要的推理分支:在数学推理参考测试中,经过两个阶段训练的一系列基本模型Octothinker的一系列基本模型的显着改善。与基本的原始火焰模型相比,所有模型尺寸的性能显着提高了10%-20%,从而为RL扩展提供了坚实的基础。例如,诸如GSM8K和MATH500之类的参考测试显着提高了Octothinker Dock模型的推理的精度和深度。图:八刺数学数学排名评分在期间中间训练后,图显示了模型在1B尺度上的结果。图:八刺数学分类分数在此期间训练后,nd图显示了3B量表上模型的结果。图:在期间训练后训练后,Octothinker数学分类得分,该图显示了8B量表的模型结果。在RL培训中,Octothinker-Zero家族的出色表现。在对基本八刺模型进行了更高的RL训练之后,产生的Octothinker-Zero家族(包括短链,混合链和长链推断分支)显示出与数学推断任务中QWEN2.5模型相当的性能。特别是,3B模型规范中的八刺孔长分支与QWEN2.5-3B模型正常巧合,以其功能强大的推理能力而闻名。在多个数学推理参考点中,八刺孔octothinker-Zero模型可以与QWEN2.5模型相提并论,略微超过某些任务。图:octothinker系列中的垫子参考尖端的动态曲线,qwen-2.5,call-3.2 rl训练。未来的前景研究团队将继续向多个方向探索。首先,我们将在训练之前更加完善数学语料库,以提高中等的训练效果。其次,我们使用一个开放公式来设计不需要蒸馏强大的长链推理模型的基本RL模型。第三,质量控制格式和内容对ENTI的独立贡献深深地。第四,我们将扩大Octchincar家族并添加新的分支,例如将推理集成到工具中,以提供更深入的对以前学习和强化强化的交互作用机制的愿景。 [1]:“ rl“混乱” ai dne th truth''由Internet Blogger -https://www.xiaohongshu.com/user/profile/623bfead0000000000001000bf09