人間からのフィードバックによる強化学習

にんげんからのふぃーどばっくによるきょうかがくしゅう

RLHF（人間からのフィードバックによる強化学習）とは、AIが生成した回答に対し、人間が「良い/悪い」の評価（報酬）を与え、それに基づいてAIをより人間に好ましい回答をするように調整する手法。

最終更新: 2026/1/28

由来・語源

(記述募集中)

(記述募集中)