Industry

动态

Client

2024年4月16日

WizardLM 推出了他们的新模型 WizardLM-2

WizardLM 推出了他们的新模型 WizardLM-2,包括三种模型型号WizardLM-2 8x22B, 70B, 和7B。 他们还给出了自己在训练思路和方法上的思考: 由于自然的训练数据在逐渐枯竭,他们构建了一个AI驱动的合成数据训练系统。

数据预处理:

1.1 数据分析:我们通过这一流程来了解新源数据不同属性的分布,以初步掌握数据特征。

1.2 加权抽样:优质训练数据的分布往往与人类对话语料的自然分布不同,因此我们根据实验经验调整训练数据的权重。

渐进式学习:

我们发现,不是一次性使用所有数据进行训练,而是分批次、分阶段进行,可以在数据量较少的情况下获得更好的效果。在每个阶段,我们首先将数据分片送到 Evol Lab,生成更多样化和复杂的[指令, 响应]配对。

接着,我们使用一个名为“AI互校AI”(AAA)的新框架,使多个最先进的大语言模型互相教育和提高。

最后,我们逐一应用监督学习、Stage-DPO 和 RLEIF 来优化每个版本。 2.1 Evol Lab: Evol-Instruct:我们近期重点改进了原有的 Evol-Instruct 方法中存在的问题,并已开始初步改革。

新方法让各种智能体能自动生成高品质的指令。

Evol-Answer:多次引导模型生成并重写响应,可以提升其逻辑性、正确性和亲和力。

2.2 AI互校AI (AAA): 共同教学:我们整合了 WizardLMs 以及多种许可的开源和专有的最新模型,让它们互相教学和提升,包括模拟聊天、质量判断、改进建议以及技能差异的弥合等。 自我教学:WizardLM 可以通过自我激活的学习方式,为监督学习生成新的进化训练数据,为强化学习产生偏好数据。

2.3 学习: 监督学习。 Stage-DPO:为了提高离线强化学习的效果,我们还将偏好数据进行分片处理,逐阶段优化模型。 RLEIF:我们运用指令质量奖励模型(IRM)和过程监督奖励模型(PRM),在在线强化学习中实现更精确的正确性。

© 2024 GUIZANG, Inc. All rights reserved.