Selective Preference Optimization via Token-Level Reward Function Estimation
| Art der Publikation: | Artikel in einem Konferenzbericht |
| Zitat: | yang:2025 |
| Publication status: | Accepted |
| Buchtitel: | Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP) |
| Jahr: | In Press |
| URL: | https://arxiv.org/abs/2408.135... |
| Schlagworte: | |
| Autoren | |
| Hinzugefügt von: | [PRT] |
| Gesamtbewertung: | 0 |
|
Anhänge
|
|
|
Notizen
|
|
|
|
|
|
Themen
|
|
|
|
|
