Selective Preference Optimization via Token-Level Reward Function Estimation
Art der Publikation: | Artikel in einem Konferenzbericht |
Zitat: | yang:2025 |
Publication status: | Accepted |
Buchtitel: | Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP) |
Jahr: | In Press |
URL: | https://arxiv.org/abs/2408.135... |
Schlagworte: | |
Autoren | |
Hinzugefügt von: | [PRT] |
Gesamtbewertung: | 0 |
Anhänge
|
|
Notizen
|
|
|
|
Themen
|
|
|