Search Results - RepositoryStats

119

1.4k

apache-2.0

16

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

Created 2023-05-15

111 commits to main branch, last one 10 months ago

6

133

apache-2.0

6

BeaverTails is a collection of datasets designed to facilitate research on safety alignment in large language models (LLMs).

gpt llm llms rlhf llama beaver safety datasets ai-safety safe-rlhf human-feedback language-model human-feedback-data large-language-model

Created 2023-06-14

3 commits to main branch, last one about a year ago

6

110

unknown

6

Reading list for adversarial perspective and robustness in deep reinforcement learning.

Created 2023-09-08

16 commits to main branch, last one 3 days ago