人間からのフィードバックによる強化学習
にんげんからのふぃーどばっくによるきょうかがくしゅう
RLHF(人間からのフィードバックによる強化学習)とは、AIが生成した回答に対し、人間が「良い/悪い」の評価(報酬)を与え、それに基づいてAIをより人間に好ましい回答をするように調整する手法。
最終更新: 2026/1/28
由来・語源
(記述募集中)
使用例
(記述募集中)
関連用語
- 関連:
にんげんからのふぃーどばっくによるきょうかがくしゅう
RLHF(人間からのフィードバックによる強化学習)とは、AIが生成した回答に対し、人間が「良い/悪い」の評価(報酬)を与え、それに基づいてAIをより人間に好ましい回答をするように調整する手法。
(記述募集中)
(記述募集中)