Search Results - RepositoryStats

2 results found Sort:

unknown

[NeurIPS 2024] Fast Best-of-N Decoding via Speculative Rejection

best-of-n acceleration llm-aligment inference-scaling

Created 2024-10-17

5 commits to main branch, last one about a month ago

mit

A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

best-of-n ensembles deep-learning reward-models large-language-models reinforcement-learning-from-human-feedback

Created 2023-12-02

2 commits to main branch, last one 9 months ago