如果没有它，ChatGPT可能没那么“像人”

OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。

过去几年里各种 LLM 根据人类输入提示 (prompt) 生成多样化文本的能力令人印象深刻。然而，对生成结果的评估是主观和依赖上下文的，例如，我们希望模型生成一个有创意的故事、一段真实的信息性文本，或者是可执行的代码片段，这些结果难以用现有的基于规则的文本生成指标 (如 BLUE 和 ROUGE) 来衡量。除了评估指标，现有的模型通常以预测下一个单词的方式和简单的损失函数 (如交叉熵) 来建模，没有明显地引入人的偏好和主观意见。

相关内容

刚刚ChatGPT宕机8小时，谷歌Gemini搜索量激增60%
2天前ChatGPT可能没那么“像人”
4天前7亿用户白嫖ChatGPT，OpenAI怎么从他们身上赚到钱？
1周前如何在电脑和手机上安全下载ChatGPT？
1周前ChatGPT是免费的吗？
1周前OpenAI对盈利模式持开放态度 ChatGPT负责人称不排除未来加入广告
1周前ChatGPT科普，普通人也能看懂的AI聊天机器人指南
1周前硕士论文能用ChatGPT辅助写作吗？
1周前ChatGPT研究，如何用它提升工作效率与学习效果？
1周前用ChatGPT养生的大叔，把自己养进了精神病病房
1周前ChatGPT市值突破千亿美元，AI巨头如何实现惊人估值？
1周前如何用ChatGPT写出专业又吸引人的英文简历？
1周前ChatGPT 最新功能更新
1周前ChatGPT迎来一系列更新，并推出新的订阅服务
1周前用户抱怨ChatGPT新模型缺乏共情能力
2周前ChatGPT体验如何？
2周前ChatGPT注册电话收不到验证码？
2周前如何用ChatGPT快速生成专业表格
2周前如何用ChatGPT快速生成专业表格？
2周前OpenAI提升ChatGPT Plus用户推理配额至每周3000次