Pedia

人間からのフィードバックによる強化学習

にんげんからのふぃーどばっくによるきょうかがくしゅう

RLHF(人間からのフィードバックによる強化学習)とは、AIが生成した回答に対し、人間が「良い/悪い」の評価(報酬)を与え、それに基づいてAIをより人間に好ましい回答をするように調整する手法。

最終更新: 2026/1/28

由来・語源

(記述募集中)

使用例

(記述募集中)

関連用語

  • 関連:
TOP / 検索 Amazonで探す