Selective Preference Optimization via Token-Level Reward Function Estimation
Tipo de publicação: | Misc |
Citação: | yang:2024b |
Ano: | 2024 |
Howpublished: | arXiv |
URL: | https://arxiv.org/abs/2408.135... |
Palavras-chave: | |
Autores | |
Adicionado por: | [PRT] |
Total mark: | 0 |
Anexos
|
|
Notas
|
|
|
|
Tópicos
|
|
|