Maosong 投稿量子位 | 公众号 QbitAI仅使用20K合成数据,就能让Qwen模型能力飙升——模型主观对话能力显著提升,还能实现模型自我迭代。合成数据大法好!最近,来自上海AI ...
在人工智能迅速发展的时代,数据的重要性愈发凸显。近期,上海AI Lab的研究团队提出了一种新颖的合成数据技术,展示了如何仅使用20K合成数据,显著提升大模型的能力,并实现其自我迭代。这一研究为大模型的训练提供了新的方向,引发了业界的广泛关注。
研究小组还特别关注合成数据规模对模型性能的影响,结果显示从5K逐渐增加到200K时,模型对话能力明显提升,但在达到20K后性能提升的幅度开始减缓。此外,令人振奋的是,经过Condor合成数据训练后,模型实现了自我迭代,无论是7B还是72B版本,都展现出显著的性能改进。