同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。具体而言,RLHF阶段的调优又分为...
CSDN · 2023-04-12 08:03:00