ChatGPT是什么?
ChatGPT 是一个原型人工智能聊天机器人,专注于可用性和对话。由OpenAI开发,采用基于GPT-3.5架构的大型语言模型
我们找到了官方对于这个模型优势解释的paper
使语言模型更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种途径,可以通过根据人类反馈进行微调,使语言模型与用户对各种任务的意图保持一致。从一组标记器编写的提示和通过 OpenAI API 提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们用它来使用监督学习微调 GPT-3。然后,我们收集模型输出排名的数据集,我们使用该数据集通过人类反馈的强化学习进一步微调该监督模型。我们将生成的模型称为 InstructGPT。在对我们的提示分布的人工评估中,1.3B 参数 InstructGPT 模型的输出优于 175B GPT-3 的输出,尽管参数少 100 倍。此外,InstructGPT 模型显示了真实性的提高和有毒输出生成的减少,同时对公共 NLP 数据集的性能回归最小。尽管 InstructGPT 仍然会犯一些简单的错误,但我们的结果表明,根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有前途的方向。