Selective Preference Optimization via Token-Level Reward Function Estimation - NaCTeM Publications

Art der Publikation:	Artikel in einem Konferenzbericht
Zitat:	yang:2025
Publication status:	Accepted
Buchtitel:	Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)
Jahr:	In Press
URL:	https://arxiv.org/abs/2408.135...
Schlagworte:
Autoren	Yang, K Liu, Z. Xie, Q. Huang, J. Min, E. Ananiadou, S.
Hinzugefügt von:	[PRT]
Gesamtbewertung:	0
Anhänge

Notizen

Themen

Ausführdauer: 0.0222 Sekunden.