Selective Preference Optimization via Token-Level Reward Function Estimation
Publicatietype: | Divers |
Citatie: | yang:2024b |
Jaar: | 2024 |
Hoe_uitgegeven: | arXiv |
URL: | https://arxiv.org/abs/2408.135... |
Trefwoorden: | |
Auteurs | |
Toegevoegd door: | [PRT] |
Totaalscore: | 0 |
Bestanden
|
|
Aantekeningen
|
|
|
|
Onderwerpen
|
|
|