Search Results - RepositoryStats

2 results found Sort:

apache-2.0

General-purpose activation steering library

refusal steering alignment llm-steering activation-steering representation-engineering

Created 2024-08-23

35 commits to main branch, last one 7 days ago

mit

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

llm refusal benchmark safety-evaluation

Created 2024-06-13

4 commits to main branch, last one 5 months ago