Selective Preference Optimization via Token-Level Reward Function Estimation - NaCTeM Publications

Type of publication:	Misc
Citation:	yang:2024b
Year:	2024
Howpublished:	arXiv
URL:	https://arxiv.org/abs/2408.135...
Keywords:
Authors	Yang, K Liu, Z. Xie, Q. Huang, J. Min, E. Ananiadou, S.
Added by:	[PRT]
Total mark:	0
Attachments

Notes

Topics

processing time: 0.0206 seconds.