Selective Preference Optimization via Token-Level Reward Function Estimation - NaCTeM Publications

Publicatietype:	Divers
Citatie:	yang:2024b
Jaar:	2024
Hoe_uitgegeven:	arXiv
URL:	https://arxiv.org/abs/2408.135...
Trefwoorden:
Auteurs	Yang, K Liu, Z. Xie, Q. Huang, J. Min, E. Ananiadou, S.
Toegevoegd door:	[PRT]
Totaalscore:	0
Bestanden

Aantekeningen

Onderwerpen

Tijd voor verwerking: 0.0271 seconden.