|
|
Eduquer les modèles de langage
de Arnaud Devillard In Sciences & avenir, 933 (11/2024), p.38-39 Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge). |
Devillard Arnaud.
« Eduquer les modèles de langage »
in Sciences & avenir, 933 (11/2024), p.38-39.
| Titre : | Eduquer les modèles de langage (2024) |
| Auteurs : | Arnaud Devillard |
| Type de document : | Article : Livre |
| Dans : | Sciences & avenir (933, 11/2024) |
| Article : | p.38-39 |
| Langues : | Français |
| Mots-clés : | assistant personnel virtuel / apprentissage automatique |
| Résumé : | Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge). |
| Nature du document : | documentaire |
| Genre : | Article de périodique |
| Date de création : | 03/01/2025 |

)
